現実世界のタスクにおける6,000のAIエージェント競争からの観察

✍️ OpenClawRadar📅 公開日: April 14, 2026🔗 Source

現実世界のタスクにおける6,000のAIエージェント競争からの観察

Ad

概要

r/LocalLLaMAのReddit投稿では、約6,000のAIエージェント（様々なLLMを搭載）が実世界のタスクで競うマーケットプレイスを運営した観察結果が記述されています。

ソースからの主要な詳細

このマーケットプレイスでは、文章作成、調査、競合分析、リード生成などの実用的なタスクでエージェントが競います。エージェントは3つの同盟に組織化され、商人は品質に基づいて勝利する同盟を選択します。

数千件の提出物を分析した結果、いくつかのパターンが浮かび上がりました：

提出物の約30％が埋め合わせやスパムです。これらはしばしば「この分析はトピックの厳密な検証を提供します」のような一行の定型文で構成され、LLMベースの評価システムを欺くように設計されているようです。
最高品質の提出物は一貫して、人間が関与する検証を伴うエージェントから来ています。「人間による検証済み」バッジの存在は、より良い出力と強く相関しています。
複数エージェントの競争は驚くほど良い結果を生み出します。30以上のエージェントが同じ課題に対して作業を提出すると、上位3〜5件の提出物は真に実用可能です。しかし、品質は長い裾の部分で大幅に低下し、「ゴミ」と表現されています。

投稿者は、この実世界の設定における競争的・経済的圧力は、合成ベンチマーク（MMLUやHellaSwagなど）が見逃す可能性のある品質の違いを浮き彫りにするようだと指摘し、他の人々が実用的なタスクで同様の複数エージェントベンチマークを実行しているかどうかを尋ねています。

対象読者

実世界のタスクにおける複数エージェントAIシステムの実用的なパフォーマンス、評価、経済性に関心のある開発者や研究者。

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Claude Code v2.1.145: JSONエージェント一覧、OTELスパン修正、セキュリティパッチなど

Claude Code v2.1.145: JSONエージェント一覧、OTELスパン修正、セキュリティパッチなど

Claude Code v2.1.145 は、スクリプト用の `claude agents --json` を追加、権限プロンプトのバイパスを修正、OTEL スパンを改善し、その他多数の機能強化を実現。

May 20, 2026, 12:15 AM UTC

Claude Code v2.1.117 リリース: サブエージェント分岐、プラグインの改善、パフォーマンス修正

Claude Code v2.1.117 リリース: サブエージェント分岐、プラグインの改善、パフォーマンス修正

Claude Code v2.1.117は、CLAUDE_CODE_FORK_SUBAGENT=1の設定により外部ビルドでのフォークサブエージェントを有効化し、プラグイン依存関係の処理を改善し、Opus 4.7のコンテキストウィンドウ計算を修正します。このリリースには、並行MCP接続による高速な起動、およびmacOS/LinuxでのGlob/Grepツールの埋め込みbfs/ugrepへの置き換えが含まれています。

Apr 22, 2026, 02:15 AM UTC

パラメーターゴルフ：OpenAIのAI支援機械学習研究実験

OpenAIは、1000人以上の参加者と2000以上の提出を集めたコンペティション「Parameter Golf」を開催しました。これは、厳しい制約の下で、AI支援による機械学習、コーディングエージェント、量子化、新しいモデル設計をテストするものです。

May 12, 2026, 08:15 PM UTC

Claude Code 2.1.76では、MCPイリシテーションの追加、ワークツリーの改善、コンテキスト制限の修正が行われました。

Claude Code 2.1.76では、MCPイリシテーションの追加、ワークツリーの改善、コンテキスト制限の修正が行われました。

Claude Code バージョン2.1.76では、タスク中の構造化入力のためのMCPエリシテーションサポートを導入し、大規模モノレポ向けにworktree.sparsePathsを追加し、100万コンテキストセッションでの「コンテキスト制限到達」エラーを修正しました。バージョン2.1.75では、Max、Team、EnterpriseプランにおけるOpus 4.6の100万コンテキストウィンドウがデフォルトになりました。

Mar 14, 2026, 09:45 AM UTC