AIエージェントにおけるコンテクスト品質の低下:トークン数に伴う幻覚率の増加

✍️ OpenClawRadar📅 公開日: March 28, 2026🔗 Source
AIエージェントにおけるコンテクスト品質の低下:トークン数に伴う幻覚率の増加
Ad

コンテキストウィンドウの性能テスト結果

開発者がAIエージェントにおける異なるトークン数でのコンテキスト品質の劣化をテストした結果、コンテキストサイズの増加に伴う重大な性能問題が明らかになりました。

テストからの主な発見

このテストでは、いくつかの重要な指標が測定されました:

  • コンテキストサイズ別の幻覚発生率:
    • 10Kトークン:約3%
    • 50Kトークン:約11%
    • 200Kトークン:約28%
    • 1Mトークン:不明ですが、傾向としては劣化が進んでいます
  • 想起精度: コンテキストが50Kトークンを超えると、GPT-4、Claude、ローカルモデルを含むどのテスト済みモデルも、最初の10ターンの情報について90%の想起精度を達成できませんでした。
  • トークン効率: 200Kトークンでは、ほとんどのエージェントタスクにおいて、現在のクエリに実際に関連するコンテキストの割合が12%を下回り、約188Kトークンがモデルが推論しなければならないノイズを追加していることを意味します。

問題分析

この問題は、忘却ではなく注意の枯渇であるように見えます。初期のコンテキストは最近のコンテキストと競合し、通常は位置的な関連性が高いため最近のコンテキストが優勢になります。これにより、セッションの初期に設定された制約(「PostgreSQLを使用し、ORMは使用しない」など)は、より多くのコンテキストが蓄積されるにつれて徐々に薄まっていきます。

200Kトークンで89ターン目まで進むと、モデルの注意はコンテキスト全体に広がりすぎて、初期の制約は事実上消えてしまいます。

現在の解決策と限界

多くの開発者は、「関連する」メモリを取得するためにベクトルデータベースを追加しており、これはある程度役立ちます。しかし、このアプローチは、エージェントが正しい推論に必要なものではなく、意味的に類似したコンテンツを取得します。例えば、「PostgreSQLを使用する」は「ログインエンドポイントを書いてください」と意味的に類似していませんが、適切な実行のためにはコンテキスト内にある必要があります。

この開発者は、これらの発見が実際の運用経験と一致するかどうか、また他の人々にとって実際に機能したアプローチについてフィードバックを求めています。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

ブラム・コーエンが「雰囲気コーディング」とAI支援開発手法を批判
News

ブラム・コーエンが「雰囲気コーディング」とAI支援開発手法を批判

ブラム・コーエンは、開発者がAIアシスタントを使いながらコードを見ない『バイブ・コーディング』はソフトウェアの品質低下を招くと主張し、Claudeのソースコード流出を例に、過度なドッグフーディングの問題点を示しています。

OpenClawRadar
スノーフレーク、AI代替のトレーニング後にドキュメント担当スタッフを解雇
News

スノーフレーク、AI代替のトレーニング後にドキュメント担当スタッフを解雇

Snowflakeは、技術文書作成およびドキュメント部門で人員削減を実施し、内部関係者によればその規模は公表されているよりも大きいとされています。@TechLayoffLoverのスレッドによると、同社はこれらのチームで「対象を絞った人員削減」を確認しており、内部関係者は実際の影響を受けた人数が公表されているよりも少ない数字ではなく、約400人に近いと報告しています。

OpenClawRadar
テネシー州の女性、AI顔認識システムの誤りにより6か月間収監される
News

テネシー州の女性、AI顔認識システムの誤りにより6か月間収監される

50歳のテネシー州の祖母、アンジェラ・リップスは、ファーゴ警察が顔認識ソフトウェアを使用して彼女をノースダコタ州の銀行詐欺事件の容疑者と誤認したため、約6か月間拘置所で過ごしました。犯行時に彼女が現場から約1,200マイル離れた場所にいたことを示す銀行記録が証明された後、クリスマスイブに釈放されました。

OpenClawRadar
なぜOpenClawはトークンをそんなに速く燃やしているのか?その現象を探る
News

なぜOpenClawはトークンをそんなに速く燃やしているのか?その現象を探る

AIコーディングエージェントとして知られるOpenClawが、前例のないペースでトークンを消費していると報告されています。これがユーザーに何を意味するのか、そしてこの現象の背後にある可能性のある理由について探ります。

OpenClawRadar