ATLAS: Pipeline de Computação em Tempo de Teste de Código Aberto para Qwen3-14B Alcança Desempenho de Codificação de Nível de Fronteira

O ATLAS é um pipeline de computação em tempo de teste de código aberto construído em torno do Qwen3-14B que alcança desempenho de codificação comparável a modelos de ponta a um custo significativamente menor. O projeto foi desenvolvido por um estudante de gestão empresarial da Virginia Tech que aprendeu a programar enquanto o construía.
Evolução do Desenvolvimento
O desenvolvedor passou de dois a três meses pesquisando centenas de artigos para conectar pesquisas existentes que ainda não haviam sido combinadas. O sistema evoluiu através de três versões principais:
- V1: Infraestrutura básica, descrita como "MUITO rudimentar (essencialmente apenas RAG)"
- V2: Aplicou verificação baseada em energia inspirada no artigo da Anthropic "When Models Manipulate Manifolds", resultando em um verificador decente
- V3: Dobrou o desempenho em relação à linha de base da V1 após extensa pesquisa, incluindo a exploração do Problema da Parada
Benchmarks de Desempenho
Resultados em 599 problemas do LiveCodeBench v5:
- DeepSeek V3.2 Reasoning: 86,2% pass@1, ~US$ 0,002 por tarefa (API)
- GPT-5 (alta): 84,6% pass@1, ~US$ 0,043 por tarefa (API)
- ATLAS V3: 74,6% pass@1, ~US$ 0,004 por tarefa (eletricidade)
- Claude 4.5 Sonnet: 71,4% pass@1, ~US$ 0,066 por tarefa (API)
Detalhes Técnicos e Limitações
O sistema é "lento pra caramba" de acordo com o desenvolvedor. Tarefas fáceis levam segundos, mas problemas de codificação complexos podem levar até uma hora. A V3.1 está migrando para o Qwen 3.5 9B para melhorar a velocidade e a paralelização.
O ATLAS inclui infraestrutura completa de MaaS (Model-as-a-Service) que permite conectar OpenCode ou Claude Code via API. O desenvolvedor recomenda pelo menos 16GB de VRAM, alertando que com menos memória será "ainda mais lento do que mencionei".
Configuração e Reprodutibilidade
O projeto é totalmente de código aberto sem planos de comercialização. O repositório está disponível em https://github.com/itigges22/ATLAS. O desenvolvedor observa que a reprodutibilidade precisa de trabalho, mas sugere que "se você pedir ao Claude Code para otimizá-lo para sua configuração, deve funcionar bem".
📖 Read the full source: r/LocalLLaMA
👀 See Also

Culpa: Motor de Reprodução Determinístico de Código Aberto para Depuração de Agentes de IA
Culpa é uma ferramenta de código aberto que grava sessões de agentes LLM com contexto completo de execução, permitindo reprodução determinística usando respostas gravadas como stubs em vez de acessar APIs reais. Funciona com APIs da Anthropic e OpenAI via modo proxy ou SDK Python.

Construindo um Agente de Pesquisa Autônomo com C# e LLMs Locais
Um agente de pesquisa em C# automatiza o processamento de URLs com LLMs locais usando Ollama e llama3.1:8b, gerando relatórios estruturados em markdown a partir de buscas na web.

EctoLedger: Sandbox de microVM de código aberto para agentes de IA locais com acesso ao terminal
EctoLedger é um firewall e livro-razão de tempo de execução de código aberto que fornece isolamento de microVM para agentes de IA locais com acesso ao terminal, executando quatro camadas de prevenção antes de executar comandos nos ambientes Apple Hypervisor.framework (macOS) ou Firecracker microVM (Linux).

IUM: Índice de Símbolos MCP reduz uso de tokens de IA em 15,9x comparado ao grep
IUM indexa bases de código em uma matriz SQLite de eventos de símbolo, expondo coordenadas exatas de arquivo:linha, rastreamento de grafo de chamadas e busca semântica via MCP. Benchmark contra DataFusion (1.538 arquivos) mostra 15,9x menos tokens que grep para consultas equivalentes.