O mecanismo de inferência Atlas se torna open source: Rust puro + CUDA, mais de 100 tok/s no DGX Spark

✍️ OpenClawRadar📅 Publicado: May 6, 2026🔗 Source
O mecanismo de inferência Atlas se torna open source: Rust puro + CUDA, mais de 100 tok/s no DGX Spark
Ad

O motor de inferência Atlas, anteriormente anunciado atingindo 102 tok/s no Qwen3.5-35B em um DGX Spark, agora é open source no GitHub. Escrito em Rust puro e CUDA, sem PyTorch ou runtime Python, o Atlas oferece uma imagem Docker de ~2,5 GB e cold start inferior a 2 minutos. A equipe reescreveu toda a pilha, do handler HTTP ao dispatch do kernel, para eliminar a sobrecarga de 20+ GB do Python que estava engargalando a GPU.

Benchmarks Principais no DGX Spark (GB10)

  • Qwen3.5-35B (NVFP4, MTP K=2): 130 tok/s de pico, ~111 tok/s sustentados — 3,0–3,3× vLLM no momento do teste
  • Qwen3.5-122B (NVFP4, EP=2): ~50 tok/s de decode
  • Qwen3-Next-80B-A3B (NVFP4, MTP): ~87 tok/s
  • Nemotron-3 Nano 30B (FP8): ~88 tok/s
  • Matriz completa de modelos, incluindo MiniMax2.7, Qwen3.6, Gemma, disponível no site

O Que Torna o Atlas Diferente

  • Kernels CUDA ajustados manualmente para Blackwell SM120/121: atenção, MoE, GDN, Mamba-2 — sem fallbacks genéricos
  • NVFP4 nativo + FP8 em tensor cores
  • Decodificação especulativa MTP (Multi-Token Prediction) para até 3× de throughput em decode
  • Compatibilidade com APIs OpenAI + Anthropic na mesma porta — funciona com Claude Code, Cline, OpenCode, Open WebUI prontamente
Ad

Início Rápido

docker pull avarok/atlas-gb10:latest
sudo docker run -d --name atlas --network host --gpus all --ipc=host \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    avarok/atlas-gb10:latest serve Qwen/Qwen3.6-35B-A3B-FP8 \
    --port 8888 --speculative --enable-prefix-caching

Roadmap & Comunidade

A equipe está trabalhando em uma porta Strix Halo com a Spectral Compute (hardware fornecido pela AMD), e uma porta RTX 6000 Pro Blackwell está planejada. O roadmap é guiado pela comunidade — o suporte MiniMax M2.7 veio de uma solicitação no Discord. O Atlas tem como alvo quatro chips bem, em vez de vinte mal.

Para usuários que não usam Spark, o binário atual é exclusivo para DGX Spark, mas o código está aberto para adaptação.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

Clavis MCP Server: Gerenciamento Seguro de Credenciais para Claude Desktop
Tools

Clavis MCP Server: Gerenciamento Seguro de Credenciais para Claude Desktop

Clavis é um servidor MCP que gerencia chaves de API e tokens OAuth para o Claude Desktop, armazenando credenciais com criptografia AES-256 e fornecendo atualização automática de tokens para evitar erros de expiração no meio da conversa.

OpenClawRadar
Plugin do Slack para Claude Code: Conecte-se ao Slack para Contexto e Atualizações
Tools

Plugin do Slack para Claude Code: Conecte-se ao Slack para Contexto e Atualizações

A Slack lançou um novo plugin para o Claude Code que permite conexão com o Slack para busca, mensagens e criação de documentos. O plugin permite que o Claude Code acesse o contexto do Slack para desbloquear problemas técnicos e postar atualizações.

OpenClawRadar
GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código
Tools

GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código

O GitVelocity usa o Claude para pontuar pull requests mesclados de 0 a 100 em seis dimensões: escopo, arquitetura, implementação, risco, qualidade e desempenho/segurança. Após analisar mais de 50.000 PRs em TypeScript, Python, Rust, Go, Java e Elixir, a equipe encontrou padrões surpreendentes sobre o tamanho dos PRs, cobertura de testes e adoção de IA.

OpenClawRadar
Operador Zot Chrome: Deixe seu Agente de IA do Terminal Controlar o Navegador pelo Painel Lateral
Tools

Operador Zot Chrome: Deixe seu Agente de IA do Terminal Controlar o Navegador pelo Painel Lateral

Uma extensão Chrome + ponte local que permite ao zot, um agente de IA de terminal, controlar abas do navegador através de uma ferramenta `browser_action`. Instale em dois comandos, sem modificar o zot.

OpenClawRadar