MCPをオブザーバビリティインターフェースとして：AIエージェントとカーネルトレース接続

モデルコンテキストプロトコル（MCP）は、AIエージェントとインフラストラクチャデータ間のインターフェースとなりつつあります。2026年3月、このトレンドを象徴する3つの重要な進展がありました：DatadogがリアルタイムのオブザーバビリティデータをAIエージェントに接続して自動検出と修復を可能にするMCPサーバーを提供したこと、QualysがMCPサーバーを「AIの新しいシャドウIT」と呼ぶセキュリティ分析を公開したこと、そしてMicrosoft RetinaがeBPFベースのKubernetesネットワークオブザーバビリティを実証したことです。

MCPオブザーバビリティへの2つのアプローチ

MCPを介してオブザーバビリティデータをAIエージェントに接続する方法は2つあります：

アプローチ1: 既存プラットフォームをラップする - Datadogの戦略は、既に収集・集計されているメトリクス、ログ、トレースを取得し、MCPツールを通じて公開するものです。AIエージェントはダッシュボードAPIにクエリを実行し、事前処理されたデータを取得して、それに基づいて行動します。これは、成熟したオブザーバビリティスタックを持ち、その上にAI駆動の自動化を望むチームに有効です。
アプローチ2: MCPネイティブなオブザーバビリティを構築する - 既存プラットフォームをラップする代わりに、uprobesを介してシステムコールをトレースし、結果をSQLiteに保存し、すべてをMCPツールを通じて公開するeBPFエージェントを構築します。MCPインターフェースはアダプタ層ではなく、主要なインターフェースになります。

実践におけるMCPネイティブオブザーバビリティ

本記事では、最初のトークンがベースラインよりも14.5倍長くかかったvLLM TTFT回帰をトレースする具体的な例を詳述しています。トレースデータベースは、すべてのCUDA APIコール、カーネルコンテキストスイッチ、メモリ割り当てを記録しました。ClaudeがMCPサーバーに接続してこのデータベースを読み込むと、4つの特定のツールを使用できます：

get_trace_stats - 完全なトレースサマリーを確認：12,847のCUDAイベント、4つの因果連鎖、総GPU時間
get_causal_chains - レイテンシーが急増した理由を説明する因果連鎖を平易な英語で読む
run_sql - 生のイベントデータに対してカスタムクエリを実行（例：「100msを超えるすべてのcudaMemcpyAsyncコールを表示」）
get_stacks - フラグが立てられた任意のイベントのコールスタックを検査

Claudeは30秒以内に根本原因を特定しました：logprobsの計算がデコードループをブロックし、クリティカルパス上で256倍の速度低下を引き起こしていました。この根本原因は集計メトリクスでは見えず、特定のCUDA APIコール間の生の因果連鎖でのみ確認できました。

セキュリティ上の考慮事項

Qualysは、MCPサーバーの53%以上が認証に静的シークレットに依存していることを発見し、MCPサーバーにオブザーバビリティを追加することを推奨しました：機能発見イベントのロギング、呼び出しパターンの監視、異常のアラートなどです。GPUインフラストラクチャにアクセスするMCPサーバーでは、攻撃対象領域にはタイミング情報、メモリレイアウト、モデルアーキテクチャの詳細が含まれます。

Ingeroの実装では、すべてのMCPツール呼び出しは、GPUイベントをキャプチャするのと同じeBPFインフラストラクチャを使用してトレースされ、別個のロギング層ではなく、統一されたオブザーバビリティパイプラインを形成しています。

📖 Read the full source: HN AI Agents