Evolución de Código: 2.8x Mejora en LLM ARC-AGI-2

La evolución de código mejora el razonamiento de LLM en ARC-AGI-2

Investigadores de Imbue han publicado resultados que muestran cómo la evolución de código puede mejorar significativamente el rendimiento de los LLM en el benchmark ARC-AGI-2. Su método combina muestreo basado en aptitud y mutación de código impulsada por un LLM base, logrando ganancias sustanciales en diferentes tipos de modelos.

Resultados de rendimiento

El método de evolución produce diferentes mejoras dependiendo del modelo base:

Kimi K2.5 (pesos abiertos): Ganancia de rendimiento de 2.8x, del 12.1% al 34.0% de precisión en el conjunto de evaluación público, a $2.67 por tarea. Esta representa la solución de código abierto/pesos abiertos de mayor rendimiento para ARC-AGI-2 actualmente disponible.
Gemini 3 Flash: Ganancia de rendimiento de 1.8x, del 34.0% al 61.4% de precisión, a $2.42 por tarea.
Gemini 3.1 Pro: Mejoró del 88.1% al 95.1% de precisión, a $8.71 por tarea. Este resultado es competitivo con el estado del arte actual (97.9% a $11.77/tarea por Confluence Lab).

Todas las ejecuciones utilizaron el mismo marco de evolución y prompts. Los investigadores señalan que las puntuaciones en el conjunto de evaluación público utilizado para estos resultados no son directamente comparables con el conjunto de datos semi-privado utilizado para la tabla de clasificación oficial de ARC-AGI-2.

Cómo funciona la evolución de código

El método mejora iterativamente una solución inicial utilizando muestreo basado en aptitud y mutación de código. El paso de mutación es impulsado por un LLM base subyacente, pero es agnóstico al modelo específico elegido. Este enfoque puede aplicarse a una amplia gama de tareas de razonamiento y optimización más allá de ARC-AGI-2.

Para contexto, ARC-AGI (Corpus de Abstracción y Razonamiento) fue propuesto por François Chollet en 2019 como una forma de medir la "inteligencia fluida general": la capacidad de un sistema para aprender eficientemente soluciones a problemas novedosos. Cada tarea presenta 2-5 ejemplos de entrada/salida (cuadrículas rectangulares con valores de color) y requiere deducir reglas de transformación para predecir salidas para entradas de desafío.

📖 Leer la fuente completa: HN LLM Tools

Método de Evolución de Código Triplica el Rendimiento de LLM en el Benchmark ARC-AGI-2

La evolución de código mejora el razonamiento de LLM en ARC-AGI-2

Resultados de rendimiento

Cómo funciona la evolución de código

👀 Ver también

Desarrollo de Lisp con Agentes de IA: Altos Costos y Desafíos Técnicos

OpenCawt: Sistema Judicial de Código Abierto para Disputas de Agentes de IA

Sociality.io lanza MCP Server para Claude: Inteligencia de redes sociales en vivo mediante OAuth

Anamnesis: Una Capa de Memoria Portátil para Claude y ChatGPT a través de MCP