El motor de inferencia Atlas se vuelve de código abierto: Rust puro + CUDA, más de 100 tok/s en DGX Spark

El motor de inferencia Atlas, que anteriormente había sido anticipado alcanzando 102 tok/s en Qwen3.5-35B en un DGX Spark, ahora es de código abierto en GitHub. Escrito en Rust puro y CUDA sin PyTorch ni tiempo de ejecución de Python, Atlas ofrece una imagen Docker de ~2.5 GB y un arranque en frío de menos de 2 minutos. El equipo reescribió toda la pila, desde el manejador HTTP hasta el despacho de kernels, para eliminar la sobrecarga de más de 20 GB de Python que estaba limitando la GPU.
Puntos de referencia clave en DGX Spark (GB10)
- Qwen3.5-35B (NVFP4, MTP K=2): pico de 130 tok/s, ~111 tok/s sostenidos — 3.0–3.3× vLLM en el momento de la prueba
- Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s de decodificación
- Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
- Nemotron-3 Nano 30B (FP8): ~88 tok/s
- Matriz completa de modelos que incluye MiniMax2.7, Qwen3.6, Gemma disponible en el sitio
Qué hace diferente a Atlas
- Kernels CUDA ajustados a mano para Blackwell SM120/121: atención, MoE, GDN, Mamba-2 — sin alternativas genéricas
- NVFP4 + FP8 nativos en núcleos tensoriales
- Decodificación especulativa MTP (predicción de múltiples tokens) para hasta 3× de rendimiento en decodificación
- Compatibilidad con API de OpenAI + Anthropic en el mismo puerto: funciona con Claude Code, Cline, OpenCode, Open WebUI listo para usar
Inicio rápido
docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
--port 8888 --speculative --enable-prefix-caching
Hoja de ruta y comunidad
El equipo está trabajando en un puerto para Strix Halo con Spectral Compute (hardware proporcionado por AMD), y se planea un puerto para RTX 6000 Pro Blackwell. La hoja de ruta está impulsada por la comunidad — el soporte para MiniMax M2.7 llegó por una solicitud en Discord. Atlas apunta a cuatro chips bien en lugar de veinte mal.
Para usuarios que no usan Spark, el binario actual es solo para DGX Spark, pero el código está abierto para adaptación.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

SkyClaw v2.2 Runtime de Agente de IA en Rust Agrega OAuth de OpenAI y Creación de Herramientas Personalizadas
SkyClaw v2.2 introduce autenticación OAuth de OpenAI utilizando suscripciones ChatGPT Plus/Pro, creación de herramientas personalizadas donde los agentes escriben sus propias herramientas bash/python/node en tiempo de ejecución, y modo daemon para operación en segundo plano. El runtime basado en Rust tiene benchmarks de 31ms de arranque en frío, 15MB de RAM en reposo y 9.3MB de tamaño de binario.

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp
Un desarrollador creó un servidor MCP de Mailchimp usando Claude Code, proporcionando 53 herramientas para campañas, audiencias, informes, automatizaciones y comercio electrónico con modos de seguridad integrados y configuración de solo lectura.

Spectr: Un MCP que escribe especificaciones de aplicaciones a partir de grabaciones de pantalla para clones de Claude perfectos en píxeles
Spectr es un servidor MCP, CLI y habilidad de Claude Code que toma una grabación de pantalla .mp4/.mov de una app iOS y genera un spec.md de 7 secciones con códigos hex, pesos de fuente, espaciado, transiciones y grafo de navegación — eliminando los 30 minutos de escritura manual de especificaciones por pantalla.

Servidor MCP Pepper para Interacción y Depuración del Simulador de iOS
Pepper es un servidor MCP que inyecta una biblioteca dinámica (dylib) en aplicaciones del simulador de iOS mediante DYLD_INSERT_LIBRARIES, permitiendo interacción en tiempo real, lectura de pantalla, pulsación de botones, inspección de variables y monitoreo del tráfico de red a través de un puente WebSocket.