コンテキストモードMCPサーバーがClaudeのコードコンテキスト使用量を98%削減

コンテキストモードは、Claude Codeとツール出力の間に位置するMCPサーバーで、コンテキストウィンドウの消費量を98%削減します。200Kのコンテキストウィンドウに生データをダンプする代わりに、出力を隔離されたサンドボックスで処理します。
仕組み
サンドボックスシステムは、各実行呼び出しに対して隔離されたサブプロセスを生成します。スクリプトはこれらのサブプロセス内で独自のプロセス境界を持って実行され、標準出力のみが会話コンテキストに入ります。ログファイル、APIレスポンス、スナップショットなどの生データはサンドボックスから出ることはありません。
10の言語ランタイムが利用可能です:JavaScript、TypeScript、Python、Shell、Ruby、Go、Rust、PHP、Perl、R。Bunは自動検出され、JS/TSの実行が3-5倍高速化されます。認証済みCLI(gh、aws、gcloud、kubectl、docker)は、資格情報パススルーを通じて動作し、サブプロセスは環境変数と設定パスを継承しますが、それらが会話に露出することはありません。
ナレッジベース機能
インデックスツールは、マークダウンコンテンツを見出しごとにチャンク化し、コードブロックはそのまま保持した上で、SQLite FTS5仮想テーブルに保存します。検索はBM25ランキングを使用し、インデックス作成時にポーターステミングが適用されます。検索を呼び出すと、正確なコードブロックとその見出し階層が返されます。
fetch_and_indexツールはこれをURLに拡張します:取得、HTMLからマークダウンへの変換、チャンク化、インデックス作成。生のページはコンテキストに入ることはありません。
パフォーマンスベンチマーク
- Playwrightスナップショット: 56 KB → 299 B
- GitHubイシュー(20件): 59 KB → 1.1 KB
- アクセスログ(500リクエスト): 45 KB → 155 B
- 分析CSV(500行): 85 KB → 222 B
- Gitログ(153コミット): 11.6 KB → 107 B
- リポジトリ調査(サブエージェント): 986 KB → 62 KB(5回呼び出し vs 37回)
完全なセッション全体では:315 KBの生出力が5.4 KBになります。速度低下前のセッション時間は約30分から約3時間に延長。45分後の残りコンテキスト:60%ではなく99%。
インストール
2つのインストール方法:
- プラグインマーケットプレイス:
/plugin marketplace add mksglu/claude-context-modeその後/plugin install context-mode@claude-context-mode - MCPのみ:
claude mcp add context-mode -- npx -y context-mode
インストール後、Claude Codeを再起動してください。コンテキストモードには、ツール出力を自動的にサンドボックス経由でルーティングするPreToolUseフックが含まれています。サブエージェントはbatch_executeを主要ツールとして使用することを学習し、bashサブエージェントは汎用目的にアップグレードされ、MCPツールにアクセスできるようになります。
このツールはMITライセンスの下でオープンソースであり、github.com/mksglu/claude-context-modeで公開されています。
📖 完全なソースを読む: HN LLM Tools
👀 See Also
ローカルファーストMarkdownメモリサーバー(AIエージェント向け)の調査:Mem0、Hindsight、Zep、そして新参者Engram
あるユーザーが、編集可能なファイルとして記憶を保存するためのローカルエージェントメモリシステムを約20個テストしました。Engram(Obsidian68製)だけが、完全ローカル、Markdown保存、スマート重複除去、重要度減衰、スタンドアロンサーバーのすべての要件を満たしました。

DeepSeek V4 FlashがオンプレミスのローカルLLMにOpusに迫る品質を提供
Redditユーザーが、DeepSeek 4 Flashが機密データを扱うローカルAIエージェントでOpusに迫るパフォーマンスを達成し、AWSなしでのオンプレミス展開を可能にしたと報告。NVIDIA GPUでローカル実行中だが、100万トークンでまだ遅い。

エングラム v1.0.0:ローカルLLMのための知識グラフによる永続メモリ
Engramは、知識グラフシステムを通じてローカルLLMに永続的なメモリを提供する単一のバイナリです。Claude Code、Cursor、Windsurfとの統合のためのMCPサーバーを含み、すべてのデータを単一の.brainファイルに保存し、完全にオフラインで動作します。

NLAがGemma 3の内部活性化を任意のトークンに対して可読テキストに変換
Anthropicが、モデルの内部状態をテキストにデコードするNatural Language Autoencoders(NLA)を公開。Gemma 3と組み合わせたAuto Verbalizerは、生成された任意のトークンについてモデルが「考えていた」内容を説明します。重みはHugging Faceで、デモはNeuronpediaで公開されています。