2,8x Leistungssteigerung: Code-Evolution für LLM im ARC-AGI-2

Code-Evolution verbessert das LLM-Schlussfolgern bei ARC-AGI-2

Forscher von Imbue haben Ergebnisse veröffentlicht, die zeigen, wie Code-Evolution die LLM-Leistung auf dem ARC-AGI-2-Benchmark erheblich verbessern kann. Ihre Methode kombiniert Fitness-basiertes Sampling und Code-Mutation, gesteuert durch ein Basis-LLM, und erzielt deutliche Gewinne über verschiedene Modelltypen hinweg.

Leistungsergebnisse

Die Evolutionsmethode erbringt je nach Basismodell unterschiedliche Verbesserungen:

Kimi K2.5 (Open-Weights): 2,8-facher Leistungsgewinn, von 12,1 % auf 34,0 % Genauigkeit auf dem öffentlichen Evaluierungssatz, bei 2,67 US-Dollar pro Aufgabe. Dies stellt die derzeit leistungsstärkste Open-Source-/Open-Weights-Lösung für ARC-AGI-2 dar.
Gemini 3 Flash: 1,8-facher Leistungsgewinn, von 34,0 % auf 61,4 % Genauigkeit, bei 2,42 US-Dollar pro Aufgabe.
Gemini 3.1 Pro: Verbesserung von 88,1 % auf 95,1 % Genauigkeit, bei 8,71 US-Dollar pro Aufgabe. Dieses Ergebnis ist wettbewerbsfähig mit dem aktuellen Stand der Technik (97,9 % bei 11,77 US-Dollar/Aufgabe von Confluence Lab).

Alle Durchläufe verwendeten exakt denselben Evolutionsrahmen und dieselben Prompts. Die Forscher weisen darauf hin, dass die Ergebnisse auf dem für diese Ergebnisse verwendeten öffentlichen Evaluierungssatz nicht direkt mit dem halbprivaten Datensatz vergleichbar sind, der für die offizielle ARC-AGI-2-Rangliste verwendet wird.

Wie Code-Evolution funktioniert

Die Methode verbessert iterativ eine anfängliche Lösung durch Fitness-basiertes Sampling und Code-Mutation. Der Mutationsschritt wird von einem zugrundeliegenden Basis-LLM gesteuert, ist jedoch unabhängig vom gewählten spezifischen Modell. Dieser Ansatz kann auf eine breite Palette von Schlussfolgerungs- und Optimierungsaufgaben jenseits von ARC-AGI-2 angewendet werden.

Zum Kontext: ARC-AGI (Abstraction and Reasoning Corpus) wurde 2019 von François Chollet vorgeschlagen, um die „allgemeine fluide Intelligenz“ zu messen – die Fähigkeit eines Systems, effizient Lösungen für neuartige Probleme zu lernen. Jede Aufgabe präsentiert 2–5 Eingabe-/Ausgabebeispiele (rechteckige Raster mit Farbwerten) und erfordert die Ableitung von Transformationsregeln, um Ausgaben für Herausforderungseingaben vorherzusagen.

📖 Read the full source: HN LLM Tools

Code-Evolution-Methode verdreifacht die Leistung von LLM im ARC-AGI-2-Benchmark

Code-Evolution verbessert das LLM-Schlussfolgern bei ARC-AGI-2

Leistungsergebnisse

Wie Code-Evolution funktioniert

👀 Siehe auch

Graphify: Eine Claude Code-Fähigkeit, die ein Wissensdiagramm Ihres Repos erstellte – 450.000 Downloads, 40.000 Sterne in 26 Tagen

Benchmark: Gemma4 12B vs. Qwen3 8B quantisiert auf einem 24GB Mac Mini

Stille Werkzeugfehler bei Codierungsagenten: Ein versteckter Effizienzverlust

Kvaser: Ein Open-Source, lokaler erster KI-Orchestrator mit Sub-Agent-Routing und Wolfram-Integration