Agentic GRPO：プログラミングで人間超えの初のAI

あるチームが開発したAgentic GRPOは、強化学習アルゴリズムにより、AIシステムがライブの競技プログラミングコンテストで全ての人間参加者を一貫して打ち負かすことを可能にしました。これはAIとして初の成果です。これまでの最高はGoogleのGemini 3 Deep Thinkで、8位に留まっていました。

標準RLがコーディングエージェントに失敗する理由

LLM向けの従来のRLは、一つの回答を一つの軌跡として扱います: プロンプト → 推論 → 最終回答 → 報酬。しかし、エージェントシステムはツールを呼び出し、仮説を生成し、テストを実行し、コードをデバッグし、コンテキストを要約し、計画を修正し、成功するまで何度もループします。これにより、報酬が非常に遅れて届く、軌跡が非常に長い、ロールアウト実行中にポリシーが変化する（オフポリシードリフト）という困難な問題が生じます。Agentic GRPOはこの設定での学習を安定化します。

GRPOとは？

GRPOはGroup Relative Policy Optimizationの略です。PPOと同様に、複数の出力をサンプリングし、それらを互いに比較し、相対的に優れたものに報酬を与え、モデルをより良い軌跡に向けて更新します。完璧なスカラー報酬のキャリブレーションを必要とせず、サンプルグループ内での相対的なランキング/正規化を使用します。

Agentic GRPOの核心的な直感

困難なプログラミング問題を解くAIコーディングエージェントの場合、ワークフローは次のようになります: 仮説を提案 → アルゴリズムを生成 → コードを書く → テストを生成 → テストを実行 → 失敗をデバッグ → 再試行 → 最終合格。標準RLでは、モデルは最終段階でのみ報酬を得る可能性があり、学習が遅く不安定になります。

Agentic GRPOは以下を導入します:

即時報酬 — 中間フィードバックが現れるとすぐに更新
遅延修正 — 最終結果が判明した後、以前の更新を事後的に修正

つまり、ロールアウト全体が終了するまで待つ代わりに（段階1 → 段階2 → 段階3 → 最終報酬）、システムは次のように動作します: 段階1報酬 → 今すぐ更新; 段階2報酬 → 今すぐ更新; 段階3報酬 → 今すぐ更新; 後で: 最終報酬が到着し、以前の更新を事後修正。

たとえ話

従来のRL: プロジェクト全体が出荷されるまで待ってから「よくやった」または「悪かった」と言う。Agentic GRPO: 継続的にフィードバックを与える（「その仮説は有用だった」「そのテストでバグを捕まえた」「この最適化が役立った」）が、後で評価を修正する（「実は初期の設計判断が問題を引き起こした」）。学習はより速く、密度が高く、安定します。

これは特に長期的なLLMエージェント、コーディングエージェント、自律ワークフロー向けのRLを解決します。

📖 全文ソースを読む: r/LocalLLaMA