Agentic GRPO: Erste KI, die in einem Programmierwettbewerb jeden Menschen schlägt

Ein Team hat Agentic GRPO entwickelt, einen Reinforcement-Learning-Algorithmus, der es einem KI-System ermöglichte, in Live-Programmierwettbewerben konsequent alle menschlichen Teilnehmer zu schlagen – die erste KI, die dies erreicht hat. Der bisherige Beste, Googles Gemini 3 Deep Think, erreichte nur den 8. Platz.
Warum Standard-RL für Code-Agenten versagt
Traditionelles RL für LLMs behandelt eine Antwort als eine Trajektorie: Prompt → Überlegung → endgültige Antwort → Belohnung. Aber agentische Systeme rufen Tools auf, generieren Hypothesen, führen Tests durch, debuggen Code, fassen Kontext zusammen, überarbeiten Pläne und durchlaufen viele Schleifen, bevor der Erfolg eintritt. Dies erzeugt schwierige Probleme: Belohnungen kommen sehr spät, Trajektorien sind sehr lang, und die Politik ändert sich, während Rollouts noch laufen (Off-Policy-Drift). Agentic GRPO stabilisiert das Lernen in dieser Umgebung.
Was ist GRPO?
GRPO steht für Group Relative Policy Optimization. Ähnlich wie PPO sampelt es mehrere Ausgaben, vergleicht sie miteinander, belohnt relativ bessere und aktualisiert das Modell in Richtung besserer Trajektorien. Anstatt eine perfekte skalare Belohnungskalibrierung zu erfordern, verwendet es relative Rangfolge/Normalisierung innerhalb einer Gruppe von Samples.
Kernintuition von Agentic GRPO
Für einen KI-Code-Agenten, der ein schwieriges Programmierproblem löst, könnte der Workflow sein: Hypothese vorschlagen → Algorithmus generieren → Code schreiben → Tests generieren → Tests ausführen → Fehler debuggen → wiederholen → schließlich bestehen. Im Standard-RL erhält das Modell möglicherweise nur am Ende eine Belohnung, was das Training langsam und instabil macht.
Agentic GRPO führt ein:
- Sofortige Belohnungen – Aktualisierung, sobald Zwischenfeedback erscheint
- Verzögerte Korrektur – nachträgliche Korrektur früherer Aktualisierungen, sobald das endgültige Ergebnis bekannt ist
Anstatt also zu warten, bis der gesamte Rollout abgeschlossen ist (Stufe1 → Stufe2 → Stufe3 → endgültige Belohnung), macht das System: Stufe1 Belohnung → sofort aktualisieren; Stufe2 Belohnung → sofort aktualisieren; Stufe3 Belohnung → sofort aktualisieren; später: endgültige Belohnung kommt, nachträglich frühere Aktualisierungen korrigieren.
Analogie
Traditionelles RL: Warten, bis das gesamte Projekt ausgeliefert ist, dann „gute Arbeit“ oder „schlechte Arbeit“ sagen. Agentic GRPO: Kontinuierlich Feedback geben („diese Hypothese war nützlich“, „dieser Test hat einen Fehler gefunden“, „diese Optimierung hat geholfen“), aber später die Bewertung revidieren („eigentlich hat die frühe Designentscheidung Probleme verursacht“). Das Lernen wird schneller, dichter und stabiler.
Dies löst RL speziell für langfristige LLM-Agenten, Code-Agenten und autonome Workflows.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Benchmark-Ergebnisse für visuelles Denken von 15 multimodalen KI-Modellen
AIMultiple hat 15 führende multimodale KI-Modelle anhand von 200 visuellen Verständnisfragen in zwei Kategorien getestet: Diagrammverständnis und visuelle Logik. Gemini-3.1-pro-preview und Gemini-3-pro-preview führen die Gesamtergebnisse an, gefolgt von GPT-5.2, Kimi-K2.5 und GPT-5.2-pro.

OpenClaw Agent bearbeitet HEARTBEAT.md automatisch und fügt 10 selbst zugewiesene Aufgaben hinzu
Bei einer standardmäßigen HEARTBEAT.md-Ausführung fügte ein OpenClaw-Agent 10 selbst zugewiesene Aufgaben hinzu, darunter Systemüberprüfung, Speicherwartung und Wetterchecks – was Bedenken hinsichtlich des Token-Verbrauchs aufwarf.

Claude Code v2.1.77 Veröffentlichung: Token-Limits, Sandbox-Kontrollen und Fehlerbehebungen
Claude Code v2.1.77 erhöht die Standardgrenze für maximale Ausgabetoken für Claude Opus 4.6 auf 64.000 Token und fügt eine allowRead-Sandbox-Dateisystemeinstellung hinzu. Das Release umfasst über 30 Fehlerbehebungen für Probleme von der Speicherverwaltung bis zum Terminal-UI-Verhalten.
Transformer-Sprachmodell läuft lokal auf handelsüblichem Game Boy Color
Das TinyStories-260K-Modell von Andrej Karpathy läuft auf einem handelsüblichen Game Boy Color über eine eigene ROM und nutzt INT8-Festkommaarithmetik sowie bankgeschalteten Cartridge-Speicher für Gewichte und KV-Cache.