Mecanismo de Inferência Atlas Open Source: 130 tok/s com Rust e CUDA

O motor de inferência Atlas, anteriormente anunciado atingindo 102 tok/s no Qwen3.5-35B em um DGX Spark, agora é open source no GitHub. Escrito em Rust puro e CUDA, sem PyTorch ou runtime Python, o Atlas oferece uma imagem Docker de ~2,5 GB e cold start inferior a 2 minutos. A equipe reescreveu toda a pilha, do handler HTTP ao dispatch do kernel, para eliminar a sobrecarga de 20+ GB do Python que estava engargalando a GPU.

Benchmarks Principais no DGX Spark (GB10)

Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s de pico, ~111 tok/s sustentados — 3,0–3,3× vLLM no momento do teste
Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s de decode
Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
Nemotron-3 Nano 30B (FP8): ~88 tok/s
Matriz completa de modelos, incluindo MiniMax2.7, Qwen3.6, Gemma, disponível no site

O Que Torna o Atlas Diferente

Kernels CUDA ajustados manualmente para Blackwell SM120/121: atenção, MoE, GDN, Mamba-2 — sem fallbacks genéricos
NVFP4 nativo + FP8 em tensor cores
Decodificação especulativa MTP (Multi-Token Prediction) para até 3× de throughput em decode
Compatibilidade com APIs OpenAI + Anthropic na mesma porta — funciona com Claude Code, Cline, OpenCode, Open WebUI prontamente

Início Rápido

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Roadmap & Comunidade

A equipe está trabalhando em uma porta Strix Halo com a Spectral Compute (hardware fornecido pela AMD), e uma porta RTX 6000 Pro Blackwell está planejada. O roadmap é guiado pela comunidade — o suporte MiniMax M2.7 veio de uma solicitação no Discord. O Atlas tem como alvo quatro chips bem, em vez de vinte mal.

Para usuários que não usam Spark, o binário atual é exclusivo para DGX Spark, mas o código está aberto para adaptação.

📖 Leia a fonte completa: r/LocalLLaMA

O mecanismo de inferência Atlas se torna open source: Rust puro + CUDA, mais de 100 tok/s no DGX Spark

Benchmarks Principais no DGX Spark (GB10)

O Que Torna o Atlas Diferente

Início Rápido

Roadmap & Comunidade

👀 See Also

CK Search: Ferramenta de Busca Semântica Local com Integração de Servidor MCP

Extensão do Chrome Claude para PDF Exporta Conversas Longas com Formatação Preservada

Configurando OpenClaw com Aluguel de GPU VAST.AI para Prompts Ilimitados do Ollama

Sistema de Memória Baseado em Arquivos do Claude Code: Uma Alternativa Pragmática aos Bancos de Dados Vetoriais