MCPサーバー過剰読み込みのトークン浪費をルーティングで削減

r/ClaudeAIの投稿では、微妙ながらもコストのかかる問題が報告されています。複数のMCPサーバーを設定していると、デフォルトではすべてのプロンプトで全てのサーバーが読み込まれるため、簡単なクエリでも無駄が生じます。このユーザーは5～6個のサーバーを使用していましたが、トークン使用量を確認するまで気づきませんでした。プロンプトごとに無関係なサーバー定義を読み込むためにトークンが消費されていたのです。

主な詳細

全てのプロンプトでMCPサーバーの全セット（5～6個）が読み込まれていた。
「今何時？」のような簡単なプロンプトでも、全てのサーバー定義がトリガーされていた。
解決策：プロンプトに関連するサーバーのみを選択するカスタムルーティング層。
結果：トークン使用量が大幅に減少し、プロンプト応答時間が改善された。
投稿者は「これだけ長い間チェックせずに放置していたのが信じられない」と述べている。

技術的背景

MCP（Model Context Protocol）サーバーは、Claudeの機能（ファイルシステムアクセス、データベースクエリ、Webスクレイピングなど）を拡張するツールです。多くのセットアップ（フォークされたクライアントや手動設定を含む）では、デフォルトで全てのサーバー定義リストがメッセージごとに送信されます。そのため、DBアクセス、ファイルI/O、Webブラウジングなどのツールが、実際のユーザー入力を処理する前にコンテキストウィンドウに全て投入されます。

ルーティング層は、ユーザーのメッセージ（またはシステムプロンプト）を検査し、説明やツールが意図と一致するMCPサーバーのみを条件付きで含めることができます。例えば、ファイルパスに言及するプロンプトはファイルツールを有効にし、株価に関する質問はファイナンスサーバーのみを読み込みます。これにより、無関係なサーバーメタデータによるトークンのオーバーヘッドを回避できます。