Méthode d'Évolution du Code Triple les Performances des LLM sur le Benchmark ARC-AGI-2

✍️ OpenClawRadar📅 Publié: February 28, 2026🔗 Source
Méthode d'Évolution du Code Triple les Performances des LLM sur le Benchmark ARC-AGI-2
Ad

L'évolution de code améliore le raisonnement des LLM sur ARC-AGI-2

Des chercheurs d'Imbue ont publié des résultats montrant comment l'évolution de code peut améliorer significativement les performances des LLM sur le benchmark ARC-AGI-2. Leur méthode combine un échantillonnage basé sur la fitness et une mutation de code pilotée par un LLM de base, obtenant des gains substantiels sur différents types de modèles.

Résultats de performance

La méthode d'évolution produit des améliorations différentes selon le modèle de base :

  • Kimi K2.5 (poids ouverts) : gain de performance de 2,8x, passant de 12,1 % à 34,0 % de précision sur l'ensemble d'évaluation public, à 2,67 $ par tâche. Cela représente la solution open-source/poids ouverts la plus performante actuellement disponible pour ARC-AGI-2.
  • Gemini 3 Flash : gain de performance de 1,8x, passant de 34,0 % à 61,4 % de précision, à 2,42 $ par tâche.
  • Gemini 3.1 Pro : amélioration de 88,1 % à 95,1 % de précision, à 8,71 $ par tâche. Ce résultat est compétitif avec l'état de l'art actuel (97,9 % à 11,77 $/tâche par Confluence Lab).

Toutes les exécutions ont utilisé exactement le même cadre d'évolution et les mêmes prompts. Les chercheurs notent que les scores sur l'ensemble d'évaluation public utilisé pour ces résultats ne sont pas directement comparables à l'ensemble de données semi-privé utilisé pour le classement officiel d'ARC-AGI-2.

Ad

Fonctionnement de l'évolution de code

La méthode améliore itérativement une solution initiale en utilisant un échantillonnage basé sur la fitness et une mutation de code. L'étape de mutation est pilotée par un LLM de base sous-jacent mais est agnostique au modèle spécifique choisi. Cette approche peut être appliquée à une large gamme de tâches de raisonnement et d'optimisation au-delà d'ARC-AGI-2.

Pour contexte, ARC-AGI (Abstraction and Reasoning Corpus) a été proposé par François Chollet en 2019 comme moyen de mesurer « l'intelligence fluide générale » - la capacité d'un système à apprendre efficacement des solutions à des problèmes nouveaux. Chaque tâche présente 2 à 5 exemples d'entrée/sortie (grilles rectangulaires avec des valeurs de couleur) et nécessite de déduire des règles de transformation pour prédire les sorties des entrées de défi.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

CONTACT : Jeu de Combat Naval en 3D Intégralement Construit avec du Code Claude
Tools

CONTACT : Jeu de Combat Naval en 3D Intégralement Construit avec du Code Claude

CONTACT est un jeu de combat naval en 3D entièrement construit avec Claude Code + Opus, mettant en scène un cube volumétrique 7×7×7, une économie de crédits avec avantages tactiques, et trois modes de jeu incluant Humain contre Claude et Sonnet contre Sonnet avec mémoire stratégique persistante.

OpenClawRadar
Portage de l'Autoresearch de Karpathy sur le Neural Engine d'Apple pour une meilleure efficacité énergétique par watt
Tools

Portage de l'Autoresearch de Karpathy sur le Neural Engine d'Apple pour une meilleure efficacité énergétique par watt

Un prototype combine le projet autoresearch d'Andrej Karpathy avec les performances rétro-ingéniérées du Neural Engine d'Apple, visant un meilleur débit par watt par rapport aux API officielles. Le projet est construit sur des dépôts GitHub existants et reconnaît les contributions de plusieurs développeurs.

OpenClawRadar
SuperHQ : Exécutez des agents de codage IA dans des sandboxes microVM isolés.
Tools

SuperHQ : Exécutez des agents de codage IA dans des sandboxes microVM isolés.

SuperHQ est une application open source en Rust/GPUI qui exécute des agents IA de codage (Claude Code, OpenAI Codex, Pi) dans des sandboxes microVM isolées. Chaque agent reçoit une VM Debian complète, monte les répertoires du projet en lecture seule et ne voit jamais les clés API de l'hôte — elles sont injectées via un proxy de passerelle d'authentification.

OpenClawRadar
Mengram ajoute une mémoire persistante aux agents OpenClaw.
Tools

Mengram ajoute une mémoire persistante aux agents OpenClaw.

Mengram est un système de mémoire open-source qui offre aux agents OpenClaw une mémoire à long terme entre les sessions, résolvant le problème des agents qui oublient tout lorsqu'ils redémarrent. Il fournit une mémoire épisodique, une mémoire des entités et une mémoire procédurale, avec une archivage intelligent des faits obsolètes.

OpenClawRadar