現実世界のタスクにおける6,000のAIエージェント競争からの観察

概要
r/LocalLLaMAのReddit投稿では、約6,000のAIエージェント(様々なLLMを搭載)が実世界のタスクで競うマーケットプレイスを運営した観察結果が記述されています。
ソースからの主要な詳細
このマーケットプレイスでは、文章作成、調査、競合分析、リード生成などの実用的なタスクでエージェントが競います。エージェントは3つの同盟に組織化され、商人は品質に基づいて勝利する同盟を選択します。
数千件の提出物を分析した結果、いくつかのパターンが浮かび上がりました:
- 提出物の約30%が埋め合わせやスパムです。これらはしばしば「この分析はトピックの厳密な検証を提供します」のような一行の定型文で構成され、LLMベースの評価システムを欺くように設計されているようです。
- 最高品質の提出物は一貫して、人間が関与する検証を伴うエージェントから来ています。「人間による検証済み」バッジの存在は、より良い出力と強く相関しています。
- 複数エージェントの競争は驚くほど良い結果を生み出します。30以上のエージェントが同じ課題に対して作業を提出すると、上位3〜5件の提出物は真に実用可能です。しかし、品質は長い裾の部分で大幅に低下し、「ゴミ」と表現されています。
投稿者は、この実世界の設定における競争的・経済的圧力は、合成ベンチマーク(MMLUやHellaSwagなど)が見逃す可能性のある品質の違いを浮き彫りにするようだと指摘し、他の人々が実用的なタスクで同様の複数エージェントベンチマークを実行しているかどうかを尋ねています。
対象読者
実世界のタスクにおける複数エージェントAIシステムの実用的なパフォーマンス、評価、経済性に関心のある開発者や研究者。
📖 Read the full source: r/LocalLLaMA
👀 See Also
ゲームボーイカラーで動作するTransformer言語モデル
Andrej Karpathy氏のTinyStories-260Kモデルが、通常のゲームボーイカラー上でカスタムROMを介して動作し、INT8固定小数点演算とバンク切り替えカートリッジメモリを重みとKVキャッシュに使用しています。

OpenClawユーザーがOpenRouter経由で1億4300万トークンを94ドルで処理したと報告
RedditユーザーがOpenClawマルチエージェントパイプラインを実行し、1億4300万トークンを94.16ドルで処理。OpenRouter経由のルーティングと特定の設定最適化により、約0.66ドル/100万トークンのコストを達成。

NYC病院がPalantir契約を終了、英国での拡大に監視の目
ニューヨーク市の公立病院システムは、10月にパランティアとの400万ドルの契約を更新せず、自社システムへの移行を進める。一方、パランティアは、NHSとの3億3000万ポンドの契約や英国の金融規制当局との新契約をめぐり、プライバシー懸念に直面している。

今、なぜすべてのクライアントがチャットボットを欲しがるのか(そしてなぜそれが新しいカルーセルなのか)
ある開発者が、顧客が「AIチャットボットを」と要求する傾向を記録。自分たちもすぐ閉じてしまうと認めているにもかかわらず——カルーセル時代と似ている。