Agentic GRPO: Erste KI, die alle Menschen im Programmieren übertrifft

Ein Team hat Agentic GRPO entwickelt, einen Reinforcement-Learning-Algorithmus, der es einem KI-System ermöglichte, in Live-Programmierwettbewerben konsequent alle menschlichen Teilnehmer zu schlagen – die erste KI, die dies erreicht hat. Der bisherige Beste, Googles Gemini 3 Deep Think, erreichte nur den 8. Platz.

Warum Standard-RL für Code-Agenten versagt

Traditionelles RL für LLMs behandelt eine Antwort als eine Trajektorie: Prompt → Überlegung → endgültige Antwort → Belohnung. Aber agentische Systeme rufen Tools auf, generieren Hypothesen, führen Tests durch, debuggen Code, fassen Kontext zusammen, überarbeiten Pläne und durchlaufen viele Schleifen, bevor der Erfolg eintritt. Dies erzeugt schwierige Probleme: Belohnungen kommen sehr spät, Trajektorien sind sehr lang, und die Politik ändert sich, während Rollouts noch laufen (Off-Policy-Drift). Agentic GRPO stabilisiert das Lernen in dieser Umgebung.

Was ist GRPO?

GRPO steht für Group Relative Policy Optimization. Ähnlich wie PPO sampelt es mehrere Ausgaben, vergleicht sie miteinander, belohnt relativ bessere und aktualisiert das Modell in Richtung besserer Trajektorien. Anstatt eine perfekte skalare Belohnungskalibrierung zu erfordern, verwendet es relative Rangfolge/Normalisierung innerhalb einer Gruppe von Samples.

Kernintuition von Agentic GRPO

Für einen KI-Code-Agenten, der ein schwieriges Programmierproblem löst, könnte der Workflow sein: Hypothese vorschlagen → Algorithmus generieren → Code schreiben → Tests generieren → Tests ausführen → Fehler debuggen → wiederholen → schließlich bestehen. Im Standard-RL erhält das Modell möglicherweise nur am Ende eine Belohnung, was das Training langsam und instabil macht.

Agentic GRPO führt ein:

Sofortige Belohnungen – Aktualisierung, sobald Zwischenfeedback erscheint
Verzögerte Korrektur – nachträgliche Korrektur früherer Aktualisierungen, sobald das endgültige Ergebnis bekannt ist

Anstatt also zu warten, bis der gesamte Rollout abgeschlossen ist (Stufe1 → Stufe2 → Stufe3 → endgültige Belohnung), macht das System: Stufe1 Belohnung → sofort aktualisieren; Stufe2 Belohnung → sofort aktualisieren; Stufe3 Belohnung → sofort aktualisieren; später: endgültige Belohnung kommt, nachträglich frühere Aktualisierungen korrigieren.

Analogie

Traditionelles RL: Warten, bis das gesamte Projekt ausgeliefert ist, dann „gute Arbeit“ oder „schlechte Arbeit“ sagen. Agentic GRPO: Kontinuierlich Feedback geben („diese Hypothese war nützlich“, „dieser Test hat einen Fehler gefunden“, „diese Optimierung hat geholfen“), aber später die Bewertung revidieren („eigentlich hat die frühe Designentscheidung Probleme verursacht“). Das Lernen wird schneller, dichter und stabiler.

Dies löst RL speziell für langfristige LLM-Agenten, Code-Agenten und autonome Workflows.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Agentic GRPO: Erste KI, die in einem Programmierwettbewerb jeden Menschen schlägt

Warum Standard-RL für Code-Agenten versagt

Was ist GRPO?

Kernintuition von Agentic GRPO

Analogie

👀 Siehe auch

Anthropic liefert 1-Million-Token-Kontextfenster für Claude Opus ohne Aufpreis aus.

Claude Code-Fehler: Automatisches Git-Reset zerstört unkommittierte Änderungen alle 10 Minuten

Wenn RLVR kleinen feinabgestimmten Modellen hilft: Eine Analyse mit 12 Datensätzen

Claude Codes 'Ehrliche Einschränkung' nimmt sprunghaft zu: datengetriebene Analyse von r/ClaudeAI