Evolução de Código Triplica Desempenho no ARC-AGI-2

Evolução de Código Impulsiona o Raciocínio de LLMs no ARC-AGI-2

Pesquisadores da Imbue publicaram resultados mostrando como a evolução de código pode melhorar significativamente o desempenho de LLMs no benchmark ARC-AGI-2. Seu método combina amostragem baseada em aptidão e mutação de código conduzida por um LLM base, alcançando ganhos substanciais em diferentes tipos de modelos.

Resultados de Desempenho

O método de evolução produz diferentes melhorias dependendo do modelo base:

Kimi K2.5 (pesos abertos): Ganho de desempenho de 2,8x, de 12,1% para 34,0% de precisão no conjunto de avaliação público, a US$ 2,67 por tarefa. Esta é a solução de código aberto/pesos abertos de maior desempenho para o ARC-AGI-2 atualmente disponível.
Gemini 3 Flash: Ganho de desempenho de 1,8x, de 34,0% para 61,4% de precisão, a US$ 2,42 por tarefa.
Gemini 3.1 Pro: Melhorou de 88,1% para 95,1% de precisão, a US$ 8,71 por tarefa. Este resultado é competitivo com o estado da arte atual (97,9% a US$ 11,77/tarefa da Confluence Lab).

Todas as execuções usaram exatamente o mesmo framework de evolução e prompts. Os pesquisadores observam que as pontuações no conjunto de avaliação público usado para esses resultados não são diretamente comparáveis ao conjunto de dados semi-privado usado para o ranking oficial do ARC-AGI-2.

Como Funciona a Evolução de Código

O método melhora iterativamente uma solução inicial usando amostragem baseada em aptidão e mutação de código. A etapa de mutação é conduzida por um LLM base subjacente, mas é agnóstica ao modelo específico escolhido. Esta abordagem pode ser aplicada a uma ampla gama de tarefas de raciocínio e otimização além do ARC-AGI-2.

Para contexto, o ARC-AGI (Corpus de Abstração e Raciocínio) foi proposto por François Chollet em 2019 como uma forma de medir "inteligência fluida geral" - a capacidade de um sistema de aprender soluções para problemas novos de forma eficiente. Cada tarefa apresenta 2-5 exemplos de entrada/saída (grades retangulares com valores de cor) e requer deduzir regras de transformação para prever saídas para entradas de desafio.

📖 Leia a fonte completa: HN LLM Tools

Método de Evolução de Código Triplica o Desempenho do LLM no Benchmark ARC-AGI-2

Evolução de Código Impulsiona o Raciocínio de LLMs no ARC-AGI-2

Resultados de Desempenho

Como Funciona a Evolução de Código

👀 See Also

Extensão Local AI do VS Code bloqueia geração de código inseguro durante salvamentos

Desenvolvedor cria barra de status de terminal para monitorar limites de sessão do Claude Code após corte inesperado

ClawVibe: Um Assistente de Voz Mãos-Livres para iOS para Agentes de IA com STT/TTS no Dispositivo

SkyClaw: Runtime de Agente de IA Rust para VPS na Nuvem com Controle via Telegram