ATLAS: Pipeline de Computação em Tempo de Teste de Código Aberto para Qwen3-14B Alcança Desempenho de Codificação de Nível de Fronteira

✍️ OpenClawRadar📅 Publicado: March 10, 2026🔗 Source
ATLAS: Pipeline de Computação em Tempo de Teste de Código Aberto para Qwen3-14B Alcança Desempenho de Codificação de Nível de Fronteira
Ad

O ATLAS é um pipeline de computação em tempo de teste de código aberto construído em torno do Qwen3-14B que alcança desempenho de codificação comparável a modelos de ponta a um custo significativamente menor. O projeto foi desenvolvido por um estudante de gestão empresarial da Virginia Tech que aprendeu a programar enquanto o construía.

Evolução do Desenvolvimento

O desenvolvedor passou de dois a três meses pesquisando centenas de artigos para conectar pesquisas existentes que ainda não haviam sido combinadas. O sistema evoluiu através de três versões principais:

  • V1: Infraestrutura básica, descrita como "MUITO rudimentar (essencialmente apenas RAG)"
  • V2: Aplicou verificação baseada em energia inspirada no artigo da Anthropic "When Models Manipulate Manifolds", resultando em um verificador decente
  • V3: Dobrou o desempenho em relação à linha de base da V1 após extensa pesquisa, incluindo a exploração do Problema da Parada

Benchmarks de Desempenho

Resultados em 599 problemas do LiveCodeBench v5:

  • DeepSeek V3.2 Reasoning: 86,2% pass@1, ~US$ 0,002 por tarefa (API)
  • GPT-5 (alta): 84,6% pass@1, ~US$ 0,043 por tarefa (API)
  • ATLAS V3: 74,6% pass@1, ~US$ 0,004 por tarefa (eletricidade)
  • Claude 4.5 Sonnet: 71,4% pass@1, ~US$ 0,066 por tarefa (API)
Ad

Detalhes Técnicos e Limitações

O sistema é "lento pra caramba" de acordo com o desenvolvedor. Tarefas fáceis levam segundos, mas problemas de codificação complexos podem levar até uma hora. A V3.1 está migrando para o Qwen 3.5 9B para melhorar a velocidade e a paralelização.

O ATLAS inclui infraestrutura completa de MaaS (Model-as-a-Service) que permite conectar OpenCode ou Claude Code via API. O desenvolvedor recomenda pelo menos 16GB de VRAM, alertando que com menos memória será "ainda mais lento do que mencionei".

Configuração e Reprodutibilidade

O projeto é totalmente de código aberto sem planos de comercialização. O repositório está disponível em https://github.com/itigges22/ATLAS. O desenvolvedor observa que a reprodutibilidade precisa de trabalho, mas sugere que "se você pedir ao Claude Code para otimizá-lo para sua configuração, deve funcionar bem".

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Culpa: Motor de Reprodução Determinístico de Código Aberto para Depuração de Agentes de IA
Tools

Culpa: Motor de Reprodução Determinístico de Código Aberto para Depuração de Agentes de IA

Culpa é uma ferramenta de código aberto que grava sessões de agentes LLM com contexto completo de execução, permitindo reprodução determinística usando respostas gravadas como stubs em vez de acessar APIs reais. Funciona com APIs da Anthropic e OpenAI via modo proxy ou SDK Python.

OpenClawRadar
Construindo um Agente de Pesquisa Autônomo com C# e LLMs Locais
Tools

Construindo um Agente de Pesquisa Autônomo com C# e LLMs Locais

Um agente de pesquisa em C# automatiza o processamento de URLs com LLMs locais usando Ollama e llama3.1:8b, gerando relatórios estruturados em markdown a partir de buscas na web.

OpenClawRadar
EctoLedger: Sandbox de microVM de código aberto para agentes de IA locais com acesso ao terminal
Tools

EctoLedger: Sandbox de microVM de código aberto para agentes de IA locais com acesso ao terminal

EctoLedger é um firewall e livro-razão de tempo de execução de código aberto que fornece isolamento de microVM para agentes de IA locais com acesso ao terminal, executando quatro camadas de prevenção antes de executar comandos nos ambientes Apple Hypervisor.framework (macOS) ou Firecracker microVM (Linux).

OpenClawRadar
IUM: Índice de Símbolos MCP reduz uso de tokens de IA em 15,9x comparado ao grep
Tools

IUM: Índice de Símbolos MCP reduz uso de tokens de IA em 15,9x comparado ao grep

IUM indexa bases de código em uma matriz SQLite de eventos de símbolo, expondo coordenadas exatas de arquivo:linha, rastreamento de grafo de chamadas e busca semântica via MCP. Benchmark contra DataFusion (1.538 arquivos) mostra 15,9x menos tokens que grep para consultas equivalentes.

OpenClawRadar