Método de Evolução de Código Triplica o Desempenho do LLM no Benchmark ARC-AGI-2

✍️ OpenClawRadar📅 Publicado: February 28, 2026🔗 Source
Método de Evolução de Código Triplica o Desempenho do LLM no Benchmark ARC-AGI-2
Ad

Evolução de Código Impulsiona o Raciocínio de LLMs no ARC-AGI-2

Pesquisadores da Imbue publicaram resultados mostrando como a evolução de código pode melhorar significativamente o desempenho de LLMs no benchmark ARC-AGI-2. Seu método combina amostragem baseada em aptidão e mutação de código conduzida por um LLM base, alcançando ganhos substanciais em diferentes tipos de modelos.

Resultados de Desempenho

O método de evolução produz diferentes melhorias dependendo do modelo base:

  • Kimi K2.5 (pesos abertos): Ganho de desempenho de 2,8x, de 12,1% para 34,0% de precisão no conjunto de avaliação público, a US$ 2,67 por tarefa. Esta é a solução de código aberto/pesos abertos de maior desempenho para o ARC-AGI-2 atualmente disponível.
  • Gemini 3 Flash: Ganho de desempenho de 1,8x, de 34,0% para 61,4% de precisão, a US$ 2,42 por tarefa.
  • Gemini 3.1 Pro: Melhorou de 88,1% para 95,1% de precisão, a US$ 8,71 por tarefa. Este resultado é competitivo com o estado da arte atual (97,9% a US$ 11,77/tarefa da Confluence Lab).

Todas as execuções usaram exatamente o mesmo framework de evolução e prompts. Os pesquisadores observam que as pontuações no conjunto de avaliação público usado para esses resultados não são diretamente comparáveis ao conjunto de dados semi-privado usado para o ranking oficial do ARC-AGI-2.

Ad

Como Funciona a Evolução de Código

O método melhora iterativamente uma solução inicial usando amostragem baseada em aptidão e mutação de código. A etapa de mutação é conduzida por um LLM base subjacente, mas é agnóstica ao modelo específico escolhido. Esta abordagem pode ser aplicada a uma ampla gama de tarefas de raciocínio e otimização além do ARC-AGI-2.

Para contexto, o ARC-AGI (Corpus de Abstração e Raciocínio) foi proposto por François Chollet em 2019 como uma forma de medir "inteligência fluida geral" - a capacidade de um sistema de aprender soluções para problemas novos de forma eficiente. Cada tarefa apresenta 2-5 exemplos de entrada/saída (grades retangulares com valores de cor) e requer deduzir regras de transformação para prever saídas para entradas de desafio.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also

Resultados de Benchmark: 331 Modelos GGUF Testados no Mac Mini M4 16GB
Tools

Resultados de Benchmark: 331 Modelos GGUF Testados no Mac Mini M4 16GB

Um benchmark de 331 modelos GGUF em um Mac Mini M4 com 16GB de RAM revela apenas 11 modelos Pareto-ótimos, todos com arquitetura Mixture-of-Experts. Os modelos Mixture-of-Experts dominam o desempenho com mediana de 20,0 tokens/segundo versus 4,4 para modelos densos.

OpenClawRadar
OctoArch v5.0: Runtime B2B de Confiança Zero com Personas de IA Baseadas em JSON
Tools

OctoArch v5.0: Runtime B2B de Confiança Zero com Personas de IA Baseadas em JSON

OctoArch v5.0 é um runtime cognitivo B2B de confiança zero construído para casos de uso empresarial rigorosos, como extração fiscal/de faturas. Ele substitui prompts baseados em texto por personas de IA definidas por JSON e implementa isolamento de caminhos para prevenir ataques ao servidor.

OpenClawRadar
Configuração do Docker com um Único Comando para o OpenClaw com Criptografia de Disco Completa e Monitoramento
Tools

Configuração do Docker com um Único Comando para o OpenClaw com Criptografia de Disco Completa e Monitoramento

Uma configuração Docker para OpenClaw que fornece guias de criptografia de disco completo, Tini como PID 1, ferramentas de monitoramento integradas e dados armazenados como arquivos simples no host. A implantação requer apenas dois comandos: git clone e ./shell.

OpenClawRadar
Dirac: Agente Open-Source Alcança 65,2% no TerminalBench, Mais Barato e Aberto
Tools

Dirac: Agente Open-Source Alcança 65,2% no TerminalBench, Mais Barato e Aberto

Dirac, um agente de codificação de código aberto, alcançou 65,2% no TerminalBench 2.0 para gemini-3-flash-preview, superando a linha de base do Google (47,6%) e o principal agente de código fechado Junie CLI (64,3%). Também reduz os custos de API em 64,8% em relação aos concorrentes.

OpenClawRadar