AIエージェントは、Cala MCPサーバーテストにおいて自然言語よりも構造化されたクエリを好む

Calaのチームは最近、AIエージェントが知識グラフにアクセスするための3つの異なる方法を提供するMCPサーバーをリリースしました:自然言語クエリ、構造化クエリ言語、直接的なエンティティ/関係性トラバーサルです。
予想外のエージェントの行動
エージェントが自然言語インターフェース(LLMの典型的な強み)をデフォルトで使用すると予想されていたにもかかわらず、ほとんどのエージェントは数分以内に自然言語クエリを放棄しました。何の促しや後押しもなく、彼らは自律的に構造化クエリとグラフトラバーサル手法の使用に切り替えました。
これが理にかなっている理由
ソースは、LLMは「効率的」になるように明示的に訓練されているのではなく、RLHFを通じて正しくなるように訓練されていると指摘することで、この行動を説明しています。この正しさは副作用として効率的な行動につながります—エージェントは解決策への最短で信頼できる道筋を取ることを学びます。自然言語インターフェースは不確実性をもたらす解釈層を追加しますが、構造化クエリは決定的な結果を提供します。
3つのアクセス方法が提示されたとき、エージェントは一貫して最も「自然な」インターフェースではなく、不確実性を最小限にする選択肢を選びました。
提起される重要な疑問
- エージェントツールの自然言語インターフェースに過度に依存しすぎているのか?
- MCPサーバーはデフォルトで自然言語よりも構造化/グラフベースのアクセスパターンを優先すべきか?
- エージェントが決定的な道筋を好むなら、これはツール設計にどのように影響すべきか?
Redditの議論では、エージェントツールを構築している他の人々から、同様のパターンを観察したかどうか意見を求めています。
📖 Read the full source: r/LocalLLaMA
👀 See Also

開発者、8GB VRAMでのEmbed、Rerank、およびZero-Shotモデルの提供に関するアーキテクチャのアドバイスを求める
ローカルコーディングエージェント向けの統合ナレッジグラフ/RAGサービスを構築している開発者が、8GB VRAMと16GBシステムRAMのメモリ制約に苦しんでおり、3つのトランスフォーマーモデルを同時に提供する際にOOMエラー、レイテンシースパイク、Linuxカーネルによる強制終了が発生しています。

SWE-rebenchリーダーボード更新:2026年2月の結果は接戦を明らかに
SWE-rebenchリーダーボードが2026年2月の結果で更新され、57の新規GitHub PRタスクがテストされました。Claude Opus 4.6が65.3%の解決率でトップを維持していますが、上位6モデルは5パーセントポイント以内に収まっています。
Qwen3 27B、現実のツール呼び出しでGemma 4 26Bを上回る:ローカルAIビデオパイプライン向け
地元AIビデオパイプラインの実験により、Qwen3 27Bがツール呼び出しをクリーンに処理する一方、Gemma 4 26Bはループにはまったことが示されました。また、ローカル画像生成のためのSaid Image Turboと、174Kコンテキストに達したOpenCodeオーケストレーションについても取り上げています。

Claude Sonnet 4.5 でエラー増加中 — 状況アップデート
Claude Sonnet 4.5は、2026年4月28日13:29:56 UTC時点でエラー率が高くなっています。最新情報はステータスページとReddit megathreadをご確認ください。