エージェントGRPO:プログラミング競技で全人間を初めて打ち負かしたAI

✍️ OpenClawRadar📅 公開日: May 24, 2026🔗 Source
エージェントGRPO:プログラミング競技で全人間を初めて打ち負かしたAI
Ad

あるチームが開発したAgentic GRPOは、強化学習アルゴリズムにより、AIシステムがライブの競技プログラミングコンテストで全ての人間参加者を一貫して打ち負かすことを可能にしました。これはAIとして初の成果です。これまでの最高はGoogleのGemini 3 Deep Thinkで、8位に留まっていました。

標準RLがコーディングエージェントに失敗する理由

LLM向けの従来のRLは、一つの回答を一つの軌跡として扱います: プロンプト → 推論 → 最終回答 → 報酬。しかし、エージェントシステムはツールを呼び出し、仮説を生成し、テストを実行し、コードをデバッグし、コンテキストを要約し、計画を修正し、成功するまで何度もループします。これにより、報酬が非常に遅れて届く、軌跡が非常に長い、ロールアウト実行中にポリシーが変化する(オフポリシードリフト)という困難な問題が生じます。Agentic GRPOはこの設定での学習を安定化します。

GRPOとは?

GRPOはGroup Relative Policy Optimizationの略です。PPOと同様に、複数の出力をサンプリングし、それらを互いに比較し、相対的に優れたものに報酬を与え、モデルをより良い軌跡に向けて更新します。完璧なスカラー報酬のキャリブレーションを必要とせず、サンプルグループ内での相対的なランキング/正規化を使用します。

Ad

Agentic GRPOの核心的な直感

困難なプログラミング問題を解くAIコーディングエージェントの場合、ワークフローは次のようになります: 仮説を提案 → アルゴリズムを生成 → コードを書く → テストを生成 → テストを実行 → 失敗をデバッグ → 再試行 → 最終合格。標準RLでは、モデルは最終段階でのみ報酬を得る可能性があり、学習が遅く不安定になります。

Agentic GRPOは以下を導入します:

  • 即時報酬 — 中間フィードバックが現れるとすぐに更新
  • 遅延修正 — 最終結果が判明した後、以前の更新を事後的に修正

つまり、ロールアウト全体が終了するまで待つ代わりに(段階1 → 段階2 → 段階3 → 最終報酬)、システムは次のように動作します: 段階1報酬 → 今すぐ更新; 段階2報酬 → 今すぐ更新; 段階3報酬 → 今すぐ更新; 後で: 最終報酬が到着し、以前の更新を事後修正

たとえ話

従来のRL: プロジェクト全体が出荷されるまで待ってから「よくやった」または「悪かった」と言う。Agentic GRPO: 継続的にフィードバックを与える(「その仮説は有用だった」「そのテストでバグを捕まえた」「この最適化が役立った」)が、後で評価を修正する(「実は初期の設計判断が問題を引き起こした」)。学習はより速く、密度が高く、安定します。

これは特に長期的なLLMエージェント、コーディングエージェント、自律ワークフロー向けのRLを解決します。

📖 全文ソースを読む: r/LocalLLaMA

Ad

👀 See Also

Metaが、AIエージェント向けReddit風フォーラム「Moltbook」を買収
News

Metaが、AIエージェント向けReddit風フォーラム「Moltbook」を買収

Metaは、AIエージェント向けに特別に設計されたRedditスタイルのフォーラムプラットフォーム「Moltbook」を買収しました。この買収は火曜日に確認され、Moltbookの創設者たちはMetaのSuperintelligence Labsに加わります。

OpenClawRadar
アマゾンの労働者、AI使用割当達成のために空回り業務を発明
News

アマゾンの労働者、AI使用割当達成のために空回り業務を発明

社内のAIツール導入義務に対応するため、Amazonの従業員がタスクを捏造したり、利用統計を水増ししたり、指標を操作していることが明らかになった。これはAI導入ポリシーの欠陥を示している。

OpenClawRadar
文法ベースの手法、著者分析においてAIに匹敵または凌駕
News

文法ベースの手法、著者分析においてAIに匹敵または凌駕

マンチェスター大学の研究によると、文法ベースの著者分析手法であるLambdaGは、ほとんどのテストデータセットにおいて主要なAIシステムと同等以上の性能を示し、より高い透明性と低い計算コストを提供することがわかりました。

OpenClawRadar
Claude Code v2.1.91 アップデート: エージェント設計パターン、メモリルール、およびツールの改善
News

Claude Code v2.1.91 アップデート: エージェント設計パターン、メモリルール、およびツールの改善

Claude Code v2.1.91では、ツールのインターフェース設計、コンテキスト管理、キャッシュ戦略をカバーするエージェント設計パターンのリファレンスガイドが追加されました。このアップデートでは、メモリ選択ルールの簡素化、メモリ汚染に対するセキュリティ監視の追加、Edit、ReadFile、Write操作のツール説明の改善が行われています。

OpenClawRadar