Évolution de Code Triple Perf des LLM sur ARC-AGI-2

L'évolution de code améliore le raisonnement des LLM sur ARC-AGI-2

Des chercheurs d'Imbue ont publié des résultats montrant comment l'évolution de code peut améliorer significativement les performances des LLM sur le benchmark ARC-AGI-2. Leur méthode combine un échantillonnage basé sur la fitness et une mutation de code pilotée par un LLM de base, obtenant des gains substantiels sur différents types de modèles.

Résultats de performance

La méthode d'évolution produit des améliorations différentes selon le modèle de base :

Kimi K2.5 (poids ouverts) : gain de performance de 2,8x, passant de 12,1 % à 34,0 % de précision sur l'ensemble d'évaluation public, à 2,67 $ par tâche. Cela représente la solution open-source/poids ouverts la plus performante actuellement disponible pour ARC-AGI-2.
Gemini 3 Flash : gain de performance de 1,8x, passant de 34,0 % à 61,4 % de précision, à 2,42 $ par tâche.
Gemini 3.1 Pro : amélioration de 88,1 % à 95,1 % de précision, à 8,71 $ par tâche. Ce résultat est compétitif avec l'état de l'art actuel (97,9 % à 11,77 $/tâche par Confluence Lab).

Toutes les exécutions ont utilisé exactement le même cadre d'évolution et les mêmes prompts. Les chercheurs notent que les scores sur l'ensemble d'évaluation public utilisé pour ces résultats ne sont pas directement comparables à l'ensemble de données semi-privé utilisé pour le classement officiel d'ARC-AGI-2.

Fonctionnement de l'évolution de code

La méthode améliore itérativement une solution initiale en utilisant un échantillonnage basé sur la fitness et une mutation de code. L'étape de mutation est pilotée par un LLM de base sous-jacent mais est agnostique au modèle spécifique choisi. Cette approche peut être appliquée à une large gamme de tâches de raisonnement et d'optimisation au-delà d'ARC-AGI-2.

Pour contexte, ARC-AGI (Abstraction and Reasoning Corpus) a été proposé par François Chollet en 2019 comme moyen de mesurer « l'intelligence fluide générale » - la capacité d'un système à apprendre efficacement des solutions à des problèmes nouveaux. Chaque tâche présente 2 à 5 exemples d'entrée/sortie (grilles rectangulaires avec des valeurs de couleur) et nécessite de déduire des règles de transformation pour prédire les sorties des entrées de défi.

📖 Lire la source complète : HN LLM Tools

Méthode d'Évolution du Code Triple les Performances des LLM sur le Benchmark ARC-AGI-2

L'évolution de code améliore le raisonnement des LLM sur ARC-AGI-2

Résultats de performance

Fonctionnement de l'évolution de code

👀 See Also

Claude Code Skill refactore les composants React en utilisant les principes de « Ne me faites pas réfléchir »

Le modèle Qwen3-0.6B affiné surpasse l'enseignant de 120B sur l'appel de fonction structuré.

Tester les LLM locaux pour la génération autonome de code : comparatif qualité vs. vitesse

Plugin OpenClaw Memos Résout les Problèmes de Transfert de Mémoire dans les Agents de Codage IA