O mecanismo de inferência Atlas se torna open source: Rust puro + CUDA, mais de 100 tok/s no DGX Spark

O motor de inferência Atlas, anteriormente anunciado atingindo 102 tok/s no Qwen3.5-35B em um DGX Spark, agora é open source no GitHub. Escrito em Rust puro e CUDA, sem PyTorch ou runtime Python, o Atlas oferece uma imagem Docker de ~2,5 GB e cold start inferior a 2 minutos. A equipe reescreveu toda a pilha, do handler HTTP ao dispatch do kernel, para eliminar a sobrecarga de 20+ GB do Python que estava engargalando a GPU.
Benchmarks Principais no DGX Spark (GB10)
- Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s de pico, ~111 tok/s sustentados — 3,0–3,3× vLLM no momento do teste
- Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s de decode
- Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
- Nemotron-3 Nano 30B (FP8): ~88 tok/s
- Matriz completa de modelos, incluindo MiniMax2.7, Qwen3.6, Gemma, disponível no site
O Que Torna o Atlas Diferente
- Kernels CUDA ajustados manualmente para Blackwell SM120/121: atenção, MoE, GDN, Mamba-2 — sem fallbacks genéricos
- NVFP4 nativo + FP8 em tensor cores
- Decodificação especulativa MTP (Multi-Token Prediction) para até 3× de throughput em decode
- Compatibilidade com APIs OpenAI + Anthropic na mesma porta — funciona com Claude Code, Cline, OpenCode, Open WebUI prontamente
Início Rápido
docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
-v ~/.cache/huggingface:/root/.cache/huggingface \
avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
--port 8888 --speculative --enable-prefix-caching
Roadmap & Comunidade
A equipe está trabalhando em uma porta Strix Halo com a Spectral Compute (hardware fornecido pela AMD), e uma porta RTX 6000 Pro Blackwell está planejada. O roadmap é guiado pela comunidade — o suporte MiniMax M2.7 veio de uma solicitação no Discord. O Atlas tem como alvo quatro chips bem, em vez de vinte mal.
Para usuários que não usam Spark, o binário atual é exclusivo para DGX Spark, mas o código está aberto para adaptação.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Clavis MCP Server: Gerenciamento Seguro de Credenciais para Claude Desktop
Clavis é um servidor MCP que gerencia chaves de API e tokens OAuth para o Claude Desktop, armazenando credenciais com criptografia AES-256 e fornecendo atualização automática de tokens para evitar erros de expiração no meio da conversa.

Plugin do Slack para Claude Code: Conecte-se ao Slack para Contexto e Atualizações
A Slack lançou um novo plugin para o Claude Code que permite conexão com o Slack para busca, mensagens e criação de documentos. O plugin permite que o Claude Code acesse o contexto do Slack para desbloquear problemas técnicos e postar atualizações.

GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código
O GitVelocity usa o Claude para pontuar pull requests mesclados de 0 a 100 em seis dimensões: escopo, arquitetura, implementação, risco, qualidade e desempenho/segurança. Após analisar mais de 50.000 PRs em TypeScript, Python, Rust, Go, Java e Elixir, a equipe encontrou padrões surpreendentes sobre o tamanho dos PRs, cobertura de testes e adoção de IA.

Operador Zot Chrome: Deixe seu Agente de IA do Terminal Controlar o Navegador pelo Painel Lateral
Uma extensão Chrome + ponte local que permite ao zot, um agente de IA de terminal, controlar abas do navegador através de uma ferramenta `browser_action`. Instale em dois comandos, sem modificar o zot.