ローカルLLMをClaudeコードサブエージェントとして使用してコンテキスト使用量を削減する

Claude Codeは、Claudeのサブエージェントを使用する方法と同様に、ローカルLLMにタスクを委譲することで作業を調整できます。このアプローチにより、ファイルの内容はClaudeのコンテキストから除外され、ローカルモデルの要約と洞察のみが返されます。
仕組み
小さなPythonスクリプト(約120行、標準ライブラリのみ)がエージェントループを実行します:
- ファイルの内容なしでClaudeにタスクの説明を渡します
- スクリプトは
read_fileとlist_dirツール定義を含めて、LM Studioの/v1/chat/completionsエンドポイントに送信します - ローカルモデルは必要なファイルを読み取るためにそれらのツールを自ら呼び出します
- 最終的な回答が生成されるまでループが続きます
- Claudeは結果のみを確認します
コマンド例:
python3 agent_lm.py --dir /path/to/project "summarize solar-system.html"
これにより以下が生成されます:
- [ターン1] →
read_file({'path': 'solar-system.html'}) - [ターン2] → このHTMLファイルはインタラクティブなアニメーション太陽系を作成します...
ファイルの内容はClaudeのコンテキストではなく、ローカルモデルのコンテキスト(Qwenのコンテキストでテスト済み)に入ります。
ユースケースと制限事項
Apple Silicon上のMLXを介したQwen3.5 35B 4-bitでのテストに基づくと、このアプローチは以下に適しています:
- コードの要約と説明
- バグの発見
- ボイラープレート/初稿の生成
- テキストの変換と翻訳(ヘブライ語でテスト済み)
- 論理タスクと推論(難しい問題には
--thinkフラグを使用)
以下には適していません:
- Claudeの完全なコンテキストを必要とするタスク
- 関係性が重要なマルチファイル理解
- 現在の会話履歴を必要とするタスク
- 正確性が重要なもの
これをClaudeの代替ではなく、Haikuレベルのアシスタントと考えてください。
セットアップ要件
- APIサーバーが有効な状態でローカルで実行されているLM Studio
- エージェントループ用のPythonスクリプト1つ、シンプルなプロンプトのみのクエリ用のスクリプト1つ
- 両方をグローバルな
~/.claude/CLAUDE.mdに接続し、Claude Codeが関連する時に委譲を提供するようにします - MCPサーバー、pip依存関係、プラグインインフラは不要です
設定のヒント:Jinjaテンプレートの先頭に{%- set enable_thinking = false %}を追加します。ほとんどのタスクでは、ローカルモデルに推論させる必要はなく、これにより時間とトークンを節約し、速度を向上させ、そのようなタスクでは品質の低下はほとんどありません。
📖 完全なソースを読む: r/ClaudeAI
👀 See Also

フェーズロック:子育ての手法に着想を得たAIエージェント制御システム
Phaselockは、AIコーディングエージェント向けに4つの制御メカニズムを実装したオープンソースのAgent Skillです。具体的には、アクション前の明示的なゲート、ミスに対する即時フィードバック、選択肢の制約、機械的なルール強制です。Claude Code、Cursor、Windsurf、およびフックをサポートするあらゆるツールで動作します。

Axe: 単一目的LLMエージェントのための12MB CLI
Axeは、TOMLファイルで定義された特定のAIエージェントを実行する軽量なGoバイナリです。Unixプログラムのようにエージェントを扱い、標準入力パイプ、サブエージェント委譲、マルチプロバイダーLLM統合をサポートします。

Claude Code v2.1.126: モデル選択、プロジェクト削除、OAuth修正、およびセキュリティ改善
Claude Code v2.1.126 では、Anthropic 互換ゲートウェイ用の /model ピッカー、新しい claude project purge コマンド、WSL2/SSH/コンテナでの OAuth ログインの修正、管理設定と Windows でのクリップボード露出に関するセキュリティ問題の修正が追加されました。

Meera: Qwen3.5-2BをベースにしたLinux Gnome向け完全オフラインAIアシスタント
Meeraは、Qwen3.5-2B-Q4_K_M(1.2 GB)とVulkan対応のllama-cppを使用する、Gnome Desktop向けのオフラインAIアシスタントです。ツール選択とRAGのために2番目の小さな埋め込みモデルを活用し、プロンプトの埋め込み肥大化を回避します。Ubuntu 24.04 + RTX 5090、Fedora Silverblue + Intel i3で動作します。