413.000 KI-Agenten-Läufe: Was Erfolg bringt?

Eine neue Analyse von 413.278 KI-Softwareentwicklungs-Agentenläufen aus dem CoderForge-Preview-Datensatz zeigt, was erfolgreiche von fehlgeschlagenen Läufen unterscheidet. Die Studie untersuchte 17 Milliarden Token an Verhaltensdaten und verglich bestandene mit nicht bestandenen Läufen bei identischen Problemen.

Wichtige Erkenntnisse aus den Daten

Die Analyse zeigt, dass gängige menschliche Softwareentwicklungspraktiken die Leistung von KI-Agenten tatsächlich verringern können. Hier sind die spezifischen Muster, die sich zeigten:

Hören Sie auf, Agenten zu sagen, sie sollen „zuerst umsehen“: Das Zwingen von Agenten, Dateien zu durchsuchen oder anzuschauen, bevor sie bearbeiten, verringert die Effektivität. Im Gegensatz zu Menschen mit begrenztem Arbeitsgedächtnis haben Agenten den Code bereits in ihrem Kontextfenster. Frühe Schritte, die mit Suchen und Erkunden verbracht werden, deuten darauf hin, dass der Agent herumirrt, anstatt zu lernen.
Testgetriebene Ansätze sind zwingend erforderlich: Der größte Prädiktor für erfolgreiche Läufe ist der Anteil früher Bash-Befehle, die ausschließlich dem Ausführen von Tests gewidmet sind. Agenten sollten nicht blind bearbeiten – Systemaufforderungen sollten das sofortige Ausführen der Testsuite erzwingen.
Halten Sie Agenten an der kurzen Leine: Wenn ein Agent versucht, in den ersten 30 % seines Laufs 3 oder mehr Dateien zu bearbeiten, sinken die Erfolgsquoten deutlich. Das Verteilen von Änderungen auf mehrere Dateien deutet auf Verwirrung hin. Zwingen Sie Agenten, eine Sache nach der anderen zu beheben.
Ausdauer ist eine Illusion: Wenn ein Agent denselben Bash-Befehl zweimal früh im Lauf ausführt, steckt er in einer Schleife fest, anstatt „intensiv nachzudenken“ oder „es erneut zu versuchen“. Brechen Sie die Schleife oder starten Sie den Lauf neu.

Praktische Implementierungsänderungen

Die Analyse empfiehlt spezifische Änderungen am Agenten-Scaffolding:

Verwenden Sie keine Aufforderungen wie: „Erkunden Sie die Codebasis, lesen Sie die relevanten Dateien und finden Sie den Fehler heraus.“
Verwenden Sie stattdessen: „Führen Sie die Testsuite sofort aus, um die Basislinie zu überprüfen. Nehmen Sie gezielte Änderungen an maximal 1 oder 2 Dateien vor. Führen Sie die Tests erneut aus.“

Die zentrale Einsicht ist, aufzuhören, menschliche Einschränkungen auf LLMs zu projizieren. Lassen Sie sie ihre riesigen Kontextfenster nutzen und zwingen Sie sie, ihre Arbeit mit Tests zu beweisen.

📖 Read the full source: r/LocalLLaMA

Analyse von 413.000 KI-Agenten-Läufen zeigt, was sie erfolgreich macht

Wichtige Erkenntnisse aus den Daten

Praktische Implementierungsänderungen

👀 Siehe auch

Claude Code-Fehler: Automatisches Git-Reset zerstört unkommittierte Änderungen alle 10 Minuten

Neuer KI-Tutor erzielt Effektstärke von 0,71-1,30 SD in Dartmouth-Kurs

ClawbBot-Community diskutiert potenzielle Verbesserungen der Benutzeroberfläche.

KI-generierte Frontends konvergieren zu smaragdgrünen Designmustern