ATLAS: Estrutura de Aprendizado Adaptativo em Tempo de Teste Supera Claude Sonnet em Benchmarks de Codificação com GPU de US$ 500

O que o ATLAS faz
O ATLAS (Adaptive Test-time Learning and Autonomous Specialization) é um framework que envolve um modelo menor congelado em uma infraestrutura inteligente para competir com modelos de API de fronteira. Ele usa geração estruturada, verificação baseada em energia e reparo auto-verificado sem ajuste fino, chamadas de API ou dependências de nuvem. O sistema é totalmente auto-hospedado, sem que nenhum dado saia da máquina.
Resultados de Benchmark
Hardware: RTX 5060 Ti 16GB | Modelo: Qwen3-14B-Q4_K_M (congelado)
- LiveCodeBench v5: 74,6% pass@1-v(k=3) em 599 tarefas
- GPQA Diamond: 47,0% em 198 tarefas de raciocínio de conhecimento de múltipla escolha k=5
- SciCode: 14,7% em 341 tarefas de codificação científica de domínio cruzado k=1
Observação: pass@k-v(k=3) significa uma solução enviada por tarefa, gerada via melhor-de-3 candidatos + seleção Lens + reparo iterativo em falhas. Não é geração de tiro único.
Detalhamento da Ablação do Pipeline V3
- Linha de base (sem V3): 54,9%
- +Fase 1 (PlanSearch + BudgetForcing + DivSampling): 67,3% (+12,4pp)
- +Fase 1+2 (roteamento Lens): 67,3% (+0,0pp)
- +Fase 1+3 (refinamento auto-verificado): 74,6% (+7,3pp)
A Fase 3 usa casos de teste auto-gerados para verificação interna — o modelo nunca vê a chave de resposta durante o reparo. O PR-CoT resgata 36/42 tarefas (85,7% dos resgates da Fase 3).
Comparação de Custo e Desempenho
- DeepSeek V3.2 Reasoning: 86,2% LCB pass@1, ~$0,002/tarefa (API, tiro único)
- GPT-5 (alto): 84,6%, ~$0,043/tarefa (API, tiro único)
- ATLAS V3 (pass@1-v(k=3)): 74,6%, ~$0,004/tarefa (apenas eletricidade local, melhor-de-3 + pipeline de reparo)
- Claude 4.5 Sonnet: 71,4%, ~$0,066/tarefa (API, tiro único)
- Claude 4 Sonnet: 65,5%, ~$0,066/tarefa (API, tiro único)
Cálculo de custo do ATLAS: eletricidade a $0,12/kWh (~165W GPU, ~1h 55m para 599 tarefas). O ATLAS troca latência por custo — o pipeline leva mais tempo por tarefa do que uma única chamada de API.
Como funciona
O pipeline V3 tem três fases:
- Fase 1: Gerar — PlanSearch com extração de restrições e planos diversos, Budget Forcing com controle de tokens de pensamento
- Verificar — Geometric Lens com pontuação de energia (auto-embeddings de 5120 dimensões) e execução de código em sandbox
- Fase 3: Reparar — Geração de Auto-Teste com pares I/O gerados pelo modelo e Reparo PR-CoT com cadeia de pensamento multi-perspectiva
O fluxo de trabalho: PlanSearch → Budget Forcing → k=3 candidatos → Geometric Lens → ordenados por energia → Sandbox → se todos falharem → Geração de Auto-Teste → Reparo PR-CoT → código reparado → Sandbox.
Um único servidor llama corrigido é executado no K3s, fornecendo tanto geração com execução especulativa quanto serviços de embedding.
📖 Leia a fonte completa: HN AI Agents
👀 See Also

Mercado MCP Construído com Claude Code Inclui Verificação de Segurança e Monetização
Um desenvolvedor criou mcp-marketplace.io usando Claude Code para 95% da base de código, criando um mercado curado com verificação de segurança para mais de 2.200 servidores MCP e opções de monetização para criadores.

Apresentando o OneTool MCP: Uma Ferramenta Multiuso de Código Aberto para Desenvolvedores
OneTool MCP, desenvolvido com Claude AI, oferece aos desenvolvedores mais de 100 ferramentas para tarefas como buscas na web, atualizações de bibliotecas e gerenciamento de arquivos, sem taxas de ferramentas ou degradação de contexto.

Habilidade do Agente de Recursos Modernos do CSS: Impor Práticas Modernas de CSS em Agentes de Codificação de IA
Uma habilidade de agente que impõe mais de 57 recursos modernos de CSS entre cor, layout, seletores, animação, tipografia, posicionamento e padrões de componentes, compatível com Claude Code, Cursor, Windsurf, Codex, Cline e GitHub Copilot.

Benchmark Mostra que Ferramenta CLI Reduz Custos de Tokens de Código do Claude em 32% por Meio de Navegação Estrutural
Um desenvolvedor criou uma ferramenta CLI em Rust que dá aos agentes Claude Code comandos de navegação estrutural como 'mostre-me um resumo de 180 tokens desta classe de 6.000 tokens'. Benchmarking no Sonnet 4.6 em 54 execuções automatizadas mostrou 32% de custo menor por tarefa e 67% mais edições de código por sessão.