Code-Evolution-Methode verdreifacht die Leistung von LLM im ARC-AGI-2-Benchmark

✍️ OpenClawRadar📅 Veröffentlicht: 28. Februar 2026🔗 Source
Code-Evolution-Methode verdreifacht die Leistung von LLM im ARC-AGI-2-Benchmark
Ad

Code-Evolution verbessert das LLM-Schlussfolgern bei ARC-AGI-2

Forscher von Imbue haben Ergebnisse veröffentlicht, die zeigen, wie Code-Evolution die LLM-Leistung auf dem ARC-AGI-2-Benchmark erheblich verbessern kann. Ihre Methode kombiniert Fitness-basiertes Sampling und Code-Mutation, gesteuert durch ein Basis-LLM, und erzielt deutliche Gewinne über verschiedene Modelltypen hinweg.

Leistungsergebnisse

Die Evolutionsmethode erbringt je nach Basismodell unterschiedliche Verbesserungen:

  • Kimi K2.5 (Open-Weights): 2,8-facher Leistungsgewinn, von 12,1 % auf 34,0 % Genauigkeit auf dem öffentlichen Evaluierungssatz, bei 2,67 US-Dollar pro Aufgabe. Dies stellt die derzeit leistungsstärkste Open-Source-/Open-Weights-Lösung für ARC-AGI-2 dar.
  • Gemini 3 Flash: 1,8-facher Leistungsgewinn, von 34,0 % auf 61,4 % Genauigkeit, bei 2,42 US-Dollar pro Aufgabe.
  • Gemini 3.1 Pro: Verbesserung von 88,1 % auf 95,1 % Genauigkeit, bei 8,71 US-Dollar pro Aufgabe. Dieses Ergebnis ist wettbewerbsfähig mit dem aktuellen Stand der Technik (97,9 % bei 11,77 US-Dollar/Aufgabe von Confluence Lab).

Alle Durchläufe verwendeten exakt denselben Evolutionsrahmen und dieselben Prompts. Die Forscher weisen darauf hin, dass die Ergebnisse auf dem für diese Ergebnisse verwendeten öffentlichen Evaluierungssatz nicht direkt mit dem halbprivaten Datensatz vergleichbar sind, der für die offizielle ARC-AGI-2-Rangliste verwendet wird.

Ad

Wie Code-Evolution funktioniert

Die Methode verbessert iterativ eine anfängliche Lösung durch Fitness-basiertes Sampling und Code-Mutation. Der Mutationsschritt wird von einem zugrundeliegenden Basis-LLM gesteuert, ist jedoch unabhängig vom gewählten spezifischen Modell. Dieser Ansatz kann auf eine breite Palette von Schlussfolgerungs- und Optimierungsaufgaben jenseits von ARC-AGI-2 angewendet werden.

Zum Kontext: ARC-AGI (Abstraction and Reasoning Corpus) wurde 2019 von François Chollet vorgeschlagen, um die „allgemeine fluide Intelligenz“ zu messen – die Fähigkeit eines Systems, effizient Lösungen für neuartige Probleme zu lernen. Jede Aufgabe präsentiert 2–5 Eingabe-/Ausgabebeispiele (rechteckige Raster mit Farbwerten) und erfordert die Ableitung von Transformationsregeln, um Ausgaben für Herausforderungseingaben vorherzusagen.

📖 Read the full source: HN LLM Tools

Ad

👀 Siehe auch

Graphify: Eine Claude Code-Fähigkeit, die ein Wissensdiagramm Ihres Repos erstellte – 450.000 Downloads, 40.000 Sterne in 26 Tagen
Werkzeuge

Graphify: Eine Claude Code-Fähigkeit, die ein Wissensdiagramm Ihres Repos erstellte – 450.000 Downloads, 40.000 Sterne in 26 Tagen

Graphify ist eine Claude Code-Funktion, die jede Datei in Ihrem Repository liest, einen Wissensgraphen mit Leiden-Community-Erkennung erstellt und ihn mit 71x weniger Tokens abfragt als rohe Dateien. Über 450.000 PyPI-Downloads, ~40.000 GitHub-Sterne, Platz 2 weltweit in der ersten Woche.

OpenClawRadar
Benchmark: Gemma4 12B vs. Qwen3 8B quantisiert auf einem 24GB Mac Mini
Werkzeuge

Benchmark: Gemma4 12B vs. Qwen3 8B quantisiert auf einem 24GB Mac Mini

Ein Entwickler testete Gemma4 12B gegen Qwen3:8b-q4_K_M auf einem 24GB Mac Mini mit zwei Prompts. Qwen3 verarbeitete Prompts 4-5x schneller, während Gemma4 die Ausgabe etwas schneller generierte.

OpenClawRadar
Stille Werkzeugfehler bei Codierungsagenten: Ein versteckter Effizienzverlust
Werkzeuge

Stille Werkzeugfehler bei Codierungsagenten: Ein versteckter Effizienzverlust

Coding-Agenten stoßen oft auf Tool-Fehler, die unbemerkt bleiben, weil sie auf alternative Strategien zurückgreifen, was Tokens verschwendet und die Qualität reduziert. Das Open-Source-Tool Vibeyard erkennt diese Fehler und schlägt Korrekturen vor.

OpenClawRadar
Kvaser: Ein Open-Source, lokaler erster KI-Orchestrator mit Sub-Agent-Routing und Wolfram-Integration
Werkzeuge

Kvaser: Ein Open-Source, lokaler erster KI-Orchestrator mit Sub-Agent-Routing und Wolfram-Integration

Kvaser ist ein Man-in-the-Middle MCP-Proxy, der Unter-Agenten orchestriert, mit intelligenter Tool-Whitelist, Zero-Embedding RAG über Kiwix und Wolfram-Engine-Integration für symbolische Mathematik. Entwickelt mit Qwen 3.6 35B und Unter-Agenten-Routing zu verschiedenen Modellen/Maschinen.

OpenClawRadar