ATLAS Pipeline: Qwen3-14B Alcança 74,6% em Codificação por US$ 0,004

O ATLAS é um pipeline de computação em tempo de teste de código aberto construído em torno do Qwen3-14B que alcança desempenho de codificação comparável a modelos de ponta a um custo significativamente menor. O projeto foi desenvolvido por um estudante de gestão empresarial da Virginia Tech que aprendeu a programar enquanto o construía.

Evolução do Desenvolvimento

O desenvolvedor passou de dois a três meses pesquisando centenas de artigos para conectar pesquisas existentes que ainda não haviam sido combinadas. O sistema evoluiu através de três versões principais:

V1: Infraestrutura básica, descrita como "MUITO rudimentar (essencialmente apenas RAG)"
V2: Aplicou verificação baseada em energia inspirada no artigo da Anthropic "When Models Manipulate Manifolds", resultando em um verificador decente
V3: Dobrou o desempenho em relação à linha de base da V1 após extensa pesquisa, incluindo a exploração do Problema da Parada

Benchmarks de Desempenho

Resultados em 599 problemas do LiveCodeBench v5:

DeepSeek V3.2 Reasoning: 86,2% pass@1, ~US$ 0,002 por tarefa (API)
GPT-5 (alta): 84,6% pass@1, ~US$ 0,043 por tarefa (API)
ATLAS V3: 74,6% pass@1, ~US$ 0,004 por tarefa (eletricidade)
Claude 4.5 Sonnet: 71,4% pass@1, ~US$ 0,066 por tarefa (API)

Detalhes Técnicos e Limitações

O sistema é "lento pra caramba" de acordo com o desenvolvedor. Tarefas fáceis levam segundos, mas problemas de codificação complexos podem levar até uma hora. A V3.1 está migrando para o Qwen 3.5 9B para melhorar a velocidade e a paralelização.

O ATLAS inclui infraestrutura completa de MaaS (Model-as-a-Service) que permite conectar OpenCode ou Claude Code via API. O desenvolvedor recomenda pelo menos 16GB de VRAM, alertando que com menos memória será "ainda mais lento do que mencionei".

Configuração e Reprodutibilidade

O projeto é totalmente de código aberto sem planos de comercialização. O repositório está disponível em https://github.com/itigges22/ATLAS. O desenvolvedor observa que a reprodutibilidade precisa de trabalho, mas sugere que "se você pedir ao Claude Code para otimizá-lo para sua configuração, deve funcionar bem".

📖 Read the full source: r/LocalLLaMA