ATLAS Supera Claude Sonnet em Codificação com GPU de US$ 500

O que o ATLAS faz

O ATLAS (Adaptive Test-time Learning and Autonomous Specialization) é um framework que envolve um modelo menor congelado em uma infraestrutura inteligente para competir com modelos de API de fronteira. Ele usa geração estruturada, verificação baseada em energia e reparo auto-verificado sem ajuste fino, chamadas de API ou dependências de nuvem. O sistema é totalmente auto-hospedado, sem que nenhum dado saia da máquina.

Resultados de Benchmark

Hardware: RTX 5060 Ti 16GB | Modelo: Qwen3-14B-Q4_K_M (congelado)

LiveCodeBench v5: 74,6% pass@1-v(k=3) em 599 tarefas
GPQA Diamond: 47,0% em 198 tarefas de raciocínio de conhecimento de múltipla escolha k=5
SciCode: 14,7% em 341 tarefas de codificação científica de domínio cruzado k=1

Observação: pass@k-v(k=3) significa uma solução enviada por tarefa, gerada via melhor-de-3 candidatos + seleção Lens + reparo iterativo em falhas. Não é geração de tiro único.

Detalhamento da Ablação do Pipeline V3

Linha de base (sem V3): 54,9%
+Fase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4pp)
+Fase 1+2 (roteamento Lens): 67,3% (+0,0pp)
+Fase 1+3 (refinamento auto-verificado): 74,6% (+7,3pp)

A Fase 3 usa casos de teste auto-gerados para verificação interna — o modelo nunca vê a chave de resposta durante o reparo. O PR-CoT resgata 36/42 tarefas (85,7% dos resgates da Fase 3).

Comparação de Custo e Desempenho

DeepSeek V3.2 Reasoning: 86,2% LCB pass@1, ~$0,002/tarefa (API, tiro único)
GPT-5 (alto): 84,6%, ~$0,043/tarefa (API, tiro único)
ATLAS V3 (pass@1-v(k=3)): 74,6%, ~$0,004/tarefa (apenas eletricidade local, melhor-de-3 + pipeline de reparo)
Claude 4.5 Sonnet: 71,4%, ~$0,066/tarefa (API, tiro único)
Claude 4 Sonnet: 65,5%, ~$0,066/tarefa (API, tiro único)

Cálculo de custo do ATLAS: eletricidade a $0,12/kWh (~165W GPU, ~1h 55m para 599 tarefas). O ATLAS troca latência por custo — o pipeline leva mais tempo por tarefa do que uma única chamada de API.

Como funciona

O pipeline V3 tem três fases:

Fase 1: Gerar — PlanSearch com extração de restrições e planos diversos, Budget Forcing com controle de tokens de pensamento
Verificar — Geometric Lens com pontuação de energia (auto-embeddings de 5120 dimensões) e execução de código em sandbox
Fase 3: Reparar — Geração de Auto-Teste com pares I/O gerados pelo modelo e Reparo PR-CoT com cadeia de pensamento multi-perspectiva

O fluxo de trabalho: PlanSearch → Budget Forcing → k=3 candidatos → Geometric Lens → ordenados por energia → Sandbox → se todos falharem → Geração de Auto-Teste → Reparo PR-CoT → código reparado → Sandbox.

Um único servidor llama corrigido é executado no K3s, fornecendo tanto geração com execução especulativa quanto serviços de embedding.

📖 Leia a fonte completa: HN AI Agents