Analyse von 413.000 KI-Agenten-Läufen zeigt, was sie erfolgreich macht

✍️ OpenClawRadar📅 Veröffentlicht: 12. März 2026🔗 Source
Analyse von 413.000 KI-Agenten-Läufen zeigt, was sie erfolgreich macht
Ad

Eine neue Analyse von 413.278 KI-Softwareentwicklungs-Agentenläufen aus dem CoderForge-Preview-Datensatz zeigt, was erfolgreiche von fehlgeschlagenen Läufen unterscheidet. Die Studie untersuchte 17 Milliarden Token an Verhaltensdaten und verglich bestandene mit nicht bestandenen Läufen bei identischen Problemen.

Wichtige Erkenntnisse aus den Daten

Die Analyse zeigt, dass gängige menschliche Softwareentwicklungspraktiken die Leistung von KI-Agenten tatsächlich verringern können. Hier sind die spezifischen Muster, die sich zeigten:

  • Hören Sie auf, Agenten zu sagen, sie sollen „zuerst umsehen“: Das Zwingen von Agenten, Dateien zu durchsuchen oder anzuschauen, bevor sie bearbeiten, verringert die Effektivität. Im Gegensatz zu Menschen mit begrenztem Arbeitsgedächtnis haben Agenten den Code bereits in ihrem Kontextfenster. Frühe Schritte, die mit Suchen und Erkunden verbracht werden, deuten darauf hin, dass der Agent herumirrt, anstatt zu lernen.
  • Testgetriebene Ansätze sind zwingend erforderlich: Der größte Prädiktor für erfolgreiche Läufe ist der Anteil früher Bash-Befehle, die ausschließlich dem Ausführen von Tests gewidmet sind. Agenten sollten nicht blind bearbeiten – Systemaufforderungen sollten das sofortige Ausführen der Testsuite erzwingen.
  • Halten Sie Agenten an der kurzen Leine: Wenn ein Agent versucht, in den ersten 30 % seines Laufs 3 oder mehr Dateien zu bearbeiten, sinken die Erfolgsquoten deutlich. Das Verteilen von Änderungen auf mehrere Dateien deutet auf Verwirrung hin. Zwingen Sie Agenten, eine Sache nach der anderen zu beheben.
  • Ausdauer ist eine Illusion: Wenn ein Agent denselben Bash-Befehl zweimal früh im Lauf ausführt, steckt er in einer Schleife fest, anstatt „intensiv nachzudenken“ oder „es erneut zu versuchen“. Brechen Sie die Schleife oder starten Sie den Lauf neu.
Ad

Praktische Implementierungsänderungen

Die Analyse empfiehlt spezifische Änderungen am Agenten-Scaffolding:

  • Verwenden Sie keine Aufforderungen wie: „Erkunden Sie die Codebasis, lesen Sie die relevanten Dateien und finden Sie den Fehler heraus.“
  • Verwenden Sie stattdessen: „Führen Sie die Testsuite sofort aus, um die Basislinie zu überprüfen. Nehmen Sie gezielte Änderungen an maximal 1 oder 2 Dateien vor. Führen Sie die Tests erneut aus.“

Die zentrale Einsicht ist, aufzuhören, menschliche Einschränkungen auf LLMs zu projizieren. Lassen Sie sie ihre riesigen Kontextfenster nutzen und zwingen Sie sie, ihre Arbeit mit Tests zu beweisen.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Claude Code wurde aus dem Anthropic Pro-Plan entfernt und ist jetzt nur noch in Max-Plänen verfügbar.
Nachrichten

Claude Code wurde aus dem Anthropic Pro-Plan entfernt und ist jetzt nur noch in Max-Plänen verfügbar.

Anthropic hat Claude Code aus seinem Pro-Plan (17-20 $/Monat) entfernt und macht ihn nur noch in Max-Plänen ab 100 $/Monat verfügbar. Der Pro-Plan umfasst nun Claude Cowork, unbegrenzte Projekte, die Recherche-Funktion und Zugang zu mehr Claude-Modellen.

OpenClawRadar
Claude-Code v2.1.97 Veröffentlichung: NO_FLICKER-Verbesserungen, Berechtigungsbehebungen und MCP-Updates
Nachrichten

Claude-Code v2.1.97 Veröffentlichung: NO_FLICKER-Verbesserungen, Berechtigungsbehebungen und MCP-Updates

Claude-Code v2.1.97 fügt einen Fokus-Ansichts-Umschalter (Strg+O) im NO_FLICKER-Modus hinzu, behebt mehrere Berechtigungs- und MCP-Verbindungsprobleme und verbessert den Sandbox-Netzwerkzugriff. Das Release behandelt das 429-Wiederholungsverhalten, Transkript-Persistenzprobleme und verschiedene UI-Fehler.

OpenClawRadar
Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken
Nachrichten

Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken

OpenClaw-Nutzer haben Probleme mit nicht reaktionsschnellen KI-Coding-Agenten. Die Diskussion auf Reddit beleuchtet mögliche Ursachen und Nutzerfeedback.

OpenClawRadar
Forschung: KI 'entbündelt' Arbeitsplätze in engere, schlechter bezahlte Aufgaben
Nachrichten

Forschung: KI 'entbündelt' Arbeitsplätze in engere, schlechter bezahlte Aufgaben

Ein neues Papier argumentiert, dass KI nicht direkt Arbeitsplätze abschafft, sondern sie in engere Aufgaben 'entbündelt', wobei schwache-Bündel-Berufe einen reduzierten Umfang und Lohn sehen, während starke-Bündel-Jobs Leistungsverbesserungen erfahren können.

OpenClawRadar