El motor de inferencia Atlas se vuelve de código abierto: Rust puro + CUDA, más de 100 tok/s en DGX Spark

✍️ OpenClawRadar📅 Publicado: 6 de mayo de 2026🔗 Source
El motor de inferencia Atlas se vuelve de código abierto: Rust puro + CUDA, más de 100 tok/s en DGX Spark
Ad

El motor de inferencia Atlas, que anteriormente había sido anticipado alcanzando 102 tok/s en Qwen3.5-35B en un DGX Spark, ahora es de código abierto en GitHub. Escrito en Rust puro y CUDA sin PyTorch ni tiempo de ejecución de Python, Atlas ofrece una imagen Docker de ~2.5 GB y un arranque en frío de menos de 2 minutos. El equipo reescribió toda la pila, desde el manejador HTTP hasta el despacho de kernels, para eliminar la sobrecarga de más de 20 GB de Python que estaba limitando la GPU.

Puntos de referencia clave en DGX Spark (GB10)

  • Qwen3.5-35B (NVFP4, MTP K=2): pico de 130 tok/s, ~111 tok/s sostenidos — 3.0–3.3× vLLM en el momento de la prueba
  • Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s de decodificación
  • Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
  • Nemotron-3 Nano 30B (FP8): ~88 tok/s
  • Matriz completa de modelos que incluye MiniMax2.7, Qwen3.6, Gemma disponible en el sitio

Qué hace diferente a Atlas

  • Kernels CUDA ajustados a mano para Blackwell SM120/121: atención, MoE, GDN, Mamba-2 — sin alternativas genéricas
  • NVFP4 + FP8 nativos en núcleos tensoriales
  • Decodificación especulativa MTP (predicción de múltiples tokens) para hasta 3× de rendimiento en decodificación
  • Compatibilidad con API de OpenAI + Anthropic en el mismo puerto: funciona con Claude Code, Cline, OpenCode, Open WebUI listo para usar
Ad

Inicio rápido

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Hoja de ruta y comunidad

El equipo está trabajando en un puerto para Strix Halo con Spectral Compute (hardware proporcionado por AMD), y se planea un puerto para RTX 6000 Pro Blackwell. La hoja de ruta está impulsada por la comunidad — el soporte para MiniMax M2.7 llegó por una solicitud en Discord. Atlas apunta a cuatro chips bien en lugar de veinte mal.

Para usuarios que no usan Spark, el binario actual es solo para DGX Spark, pero el código está abierto para adaptación.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

SkyClaw v2.2 Runtime de Agente de IA en Rust Agrega OAuth de OpenAI y Creación de Herramientas Personalizadas
Herramientas

SkyClaw v2.2 Runtime de Agente de IA en Rust Agrega OAuth de OpenAI y Creación de Herramientas Personalizadas

SkyClaw v2.2 introduce autenticación OAuth de OpenAI utilizando suscripciones ChatGPT Plus/Pro, creación de herramientas personalizadas donde los agentes escriben sus propias herramientas bash/python/node en tiempo de ejecución, y modo daemon para operación en segundo plano. El runtime basado en Rust tiene benchmarks de 31ms de arranque en frío, 15MB de RAM en reposo y 9.3MB de tamaño de binario.

OpenClawRadar
Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp
Herramientas

Servidor MCP de Código Abierto Conecta Claude con la API de Mailchimp

Un desarrollador creó un servidor MCP de Mailchimp usando Claude Code, proporcionando 53 herramientas para campañas, audiencias, informes, automatizaciones y comercio electrónico con modos de seguridad integrados y configuración de solo lectura.

OpenClawRadar
Spectr: Un MCP que escribe especificaciones de aplicaciones a partir de grabaciones de pantalla para clones de Claude perfectos en píxeles
Herramientas

Spectr: Un MCP que escribe especificaciones de aplicaciones a partir de grabaciones de pantalla para clones de Claude perfectos en píxeles

Spectr es un servidor MCP, CLI y habilidad de Claude Code que toma una grabación de pantalla .mp4/.mov de una app iOS y genera un spec.md de 7 secciones con códigos hex, pesos de fuente, espaciado, transiciones y grafo de navegación — eliminando los 30 minutos de escritura manual de especificaciones por pantalla.

OpenClawRadar
Servidor MCP Pepper para Interacción y Depuración del Simulador de iOS
Herramientas

Servidor MCP Pepper para Interacción y Depuración del Simulador de iOS

Pepper es un servidor MCP que inyecta una biblioteca dinámica (dylib) en aplicaciones del simulador de iOS mediante DYLD_INSERT_LIBRARIES, permitiendo interacción en tiempo real, lectura de pantalla, pulsación de botones, inspección de variables y monitoreo del tráfico de red a través de un puente WebSocket.

OpenClawRadar