Atlas motor inferencia código abierto: Rust + CUDA, 130 tok/s

El motor de inferencia Atlas, que anteriormente había sido anticipado alcanzando 102 tok/s en Qwen3.5-35B en un DGX Spark, ahora es de código abierto en GitHub. Escrito en Rust puro y CUDA sin PyTorch ni tiempo de ejecución de Python, Atlas ofrece una imagen Docker de ~2.5 GB y un arranque en frío de menos de 2 minutos. El equipo reescribió toda la pila, desde el manejador HTTP hasta el despacho de kernels, para eliminar la sobrecarga de más de 20 GB de Python que estaba limitando la GPU.

Puntos de referencia clave en DGX Spark (GB10)

Qwen3.5-35B (NVFP4, MTP K=2): pico de 130 tok/s, ~111 tok/s sostenidos — 3.0–3.3× vLLM en el momento de la prueba
Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s de decodificación
Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
Nemotron-3 Nano 30B (FP8): ~88 tok/s
Matriz completa de modelos que incluye MiniMax2.7, Qwen3.6, Gemma disponible en el sitio

Qué hace diferente a Atlas

Kernels CUDA ajustados a mano para Blackwell SM120/121: atención, MoE, GDN, Mamba-2 — sin alternativas genéricas
NVFP4 + FP8 nativos en núcleos tensoriales
Decodificación especulativa MTP (predicción de múltiples tokens) para hasta 3× de rendimiento en decodificación
Compatibilidad con API de OpenAI + Anthropic en el mismo puerto: funciona con Claude Code, Cline, OpenCode, Open WebUI listo para usar

Inicio rápido

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Hoja de ruta y comunidad

El equipo está trabajando en un puerto para Strix Halo con Spectral Compute (hardware proporcionado por AMD), y se planea un puerto para RTX 6000 Pro Blackwell. La hoja de ruta está impulsada por la comunidad — el soporte para MiniMax M2.7 llegó por una solicitud en Discord. Atlas apunta a cuatro chips bien en lugar de veinte mal.

Para usuarios que no usan Spark, el binario actual es solo para DGX Spark, pero el código está abierto para adaptación.

📖 Leer la fuente completa: r/LocalLLaMA

El motor de inferencia Atlas se vuelve de código abierto: Rust puro + CUDA, más de 100 tok/s en DGX Spark

Puntos de referencia clave en DGX Spark (GB10)

Qué hace diferente a Atlas

Inicio rápido

Hoja de ruta y comunidad

👀 Ver también

SkyClaw v2.2 Runtime de Agente de IA en Rust Agrega OAuth de OpenAI y Creación de Herramientas Personalizadas

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp

Spectr: Un MCP que escribe especificaciones de aplicaciones a partir de grabaciones de pantalla para clones de Claude perfectos en píxeles

Servidor MCP Pepper para Interacción y Depuración del Simulador de iOS