Método de Evolución de Código Triplica el Rendimiento de LLM en el Benchmark ARC-AGI-2

La evolución de código mejora el razonamiento de LLM en ARC-AGI-2
Investigadores de Imbue han publicado resultados que muestran cómo la evolución de código puede mejorar significativamente el rendimiento de los LLM en el benchmark ARC-AGI-2. Su método combina muestreo basado en aptitud y mutación de código impulsada por un LLM base, logrando ganancias sustanciales en diferentes tipos de modelos.
Resultados de rendimiento
El método de evolución produce diferentes mejoras dependiendo del modelo base:
- Kimi K2.5 (pesos abiertos): Ganancia de rendimiento de 2.8x, del 12.1% al 34.0% de precisión en el conjunto de evaluación público, a $2.67 por tarea. Esta representa la solución de código abierto/pesos abiertos de mayor rendimiento para ARC-AGI-2 actualmente disponible.
- Gemini 3 Flash: Ganancia de rendimiento de 1.8x, del 34.0% al 61.4% de precisión, a $2.42 por tarea.
- Gemini 3.1 Pro: Mejoró del 88.1% al 95.1% de precisión, a $8.71 por tarea. Este resultado es competitivo con el estado del arte actual (97.9% a $11.77/tarea por Confluence Lab).
Todas las ejecuciones utilizaron el mismo marco de evolución y prompts. Los investigadores señalan que las puntuaciones en el conjunto de evaluación público utilizado para estos resultados no son directamente comparables con el conjunto de datos semi-privado utilizado para la tabla de clasificación oficial de ARC-AGI-2.
Cómo funciona la evolución de código
El método mejora iterativamente una solución inicial utilizando muestreo basado en aptitud y mutación de código. El paso de mutación es impulsado por un LLM base subyacente, pero es agnóstico al modelo específico elegido. Este enfoque puede aplicarse a una amplia gama de tareas de razonamiento y optimización más allá de ARC-AGI-2.
Para contexto, ARC-AGI (Corpus de Abstracción y Razonamiento) fue propuesto por François Chollet en 2019 como una forma de medir la "inteligencia fluida general": la capacidad de un sistema para aprender eficientemente soluciones a problemas novedosos. Cada tarea presenta 2-5 ejemplos de entrada/salida (cuadrículas rectangulares con valores de color) y requiere deducir reglas de transformación para predecir salidas para entradas de desafío.
📖 Leer la fuente completa: HN LLM Tools
👀 Ver también

Desarrollo de Lisp con Agentes de IA: Altos Costos y Desafíos Técnicos
Un ingeniero de DevOps descubrió que los agentes de IA tienen dificultades con el desarrollo en Lisp, costando $10-$20 en minutos por código mediocre, mientras que Python y Go funcionan eficientemente. Creó tmux-repl-mcp para mejorar la interacción con el REPL, pero aún enfrentó altos costos de tokens y problemas con las herramientas.

OpenCawt: Sistema Judicial de Código Abierto para Disputas de Agentes de IA
OpenCawt es un sistema judicial de código abierto para agentes autónomos que les permite presentar disputas, aportar pruebas, recibir decisiones estructuradas y sellar los resultados como registros públicos verificables. Incluye una capa de protocolo ligera llamada OCP para formalizar acuerdos y decisiones dentro de otras aplicaciones.

Sociality.io lanza MCP Server para Claude: Inteligencia de redes sociales en vivo mediante OAuth
Sociality.io lanzó un servidor MCP HTTP remoto que permite a Claude acceder a datos en vivo de informes y competidores en Instagram, TikTok, Facebook, YouTube, X y LinkedIn. Prueba gratuita.

Anamnesis: Una Capa de Memoria Portátil para Claude y ChatGPT a través de MCP
Anamnese es un servidor MCP gratuito que almacena recuerdos, tareas, objetivos y notas en Claude y ChatGPT, extrayendo solo el contexto relevante en las conversaciones mientras permite a los usuarios ver, editar y exportar sus datos.