ローカルClaudeコードセットアップ:llama.cpp経由のQwen3.5 27B

ローカルClaude Code設定
開発者が、llama.cppを使用したローカルLLMでClaude Codeを完全にオフラインで実行するためのセットアップを文書化しました。このシステムは、Arch LinuxとStrix Haloハードウェア上で、unsloth/UD-Q4_K_XLで量子化されたQwen3.5 27Bを使用しています。
環境設定
テレメトリを無効にし、Claude Codeを完全にオフラインにするために、以下の環境変数を~/.bashrcに設定しました:
export ANTHROPIC_BASE_URL="http://127.0.0.1:8001" export ANTHROPIC_API_KEY="not-set" export ANTHROPIC_AUTH_TOKEN="not-set" export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 export CLAUDE_CODE_ENABLE_TELEMETRY=0 export DISABLE_AUTOUPDATER=1 export DISABLE_TELEMETRY=1 export CLAUDE_CODE_DISABLE_1M_CONTEXT=1 export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096 export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768
開発者は、環境変数よりもclaude/settings.jsonを使用する方が安定性と制御性が高いと指摘しています。
llama.cppサーバー設定
llama.cppサーバーは以下のパラメータで起動されました:
ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \ --model models/Qwen3.5-27B-Q4_K_M.gguf \ --alias "qwen3.5-27b" \ --port 8001 --ctx-size 65536 --n-gpu-layers 999 \ --flash-attn on --jinja --threads 8 \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \ --cache-type-k q8_0 --cache-type-v q8_0
ROCBLAS_USE_HIPBLASLT=1フラグはStrix Haloハードウェアに必要であり、開発者はllama.cppのセットアップを専門化するために特定のハードウェアを研究する重要性を強調しました。
パフォーマンスベンチマーク
7回の実行が行われ、以下の結果が得られました:
- 実行1(ファイル操作): 1分44秒、9.71トークン/秒、23Kコンテキスト、正しい出力
- 実行2(Gitクローン + コード読み取り): 2分31秒、9.56トークン/秒、32.5Kコンテキスト、優れた品質
- 実行3(7日間計画 + ガイド): 4分57秒、8.37トークン/秒、37.9Kコンテキスト、優れた品質
- 実行4(スキル評価): 4分36秒、8.46トークン/秒、40Kコンテキスト、非常に良い品質(ウェブ検索が壊れている)
- 実行5(Pythonスクリプト作成): 10分25秒、7.54トークン/秒、60.4Kコンテキスト、良い品質(7/10)
- 実行6(コードレビュー + 修正): 9分29秒、7.42トークン/秒、65,535コンテキスト(クラッシュ)、非常に良い品質(8.5/10)
- 実行7(/compactコマンド): 約10分、約8.07トークン/秒、66,680コンテキスト(失敗)、品質N/A
主な発見
- 生成速度はコンテキスト範囲全体で約24%低下しました:23Kコンテキストで9.71トークン/秒から65Kコンテキストで7.42トークン/秒へ
- Claude Codeシステムプロンプトは22,870トークン(65K予算の35%)を消費します
- 自動コンパクションは完全に壊れていました:Claude Codeは200Kコンテキストを想定していたため、95%の閾値は190Kでしたが、65K制限はClaude Codeが想定したウィンドウの33%で到達しました
- /compactコマンドには出力の余裕が必要です:4096最大出力トークンでは、コンパクションの要約が収まらず、16K以上のトークンが必要です
- ウェブ検索機能はAnthropic接続なしでは壊れています;潜在的な解決策には、MCPを介したSearXNGが含まれます
📖 Read the full source: r/LocalLLaMA
👀 See Also

エンドツーエンドLLMスタックトレース:キーストロークからストリーミングトークンまで
ソフトウェアエンジニアが、ClaudeやChatGPTのようなLLMにプロンプトを送信した際にスタックの各レイヤーで正確に何が起こるかを追跡した詳細な技術文書を作成しました。ブラウザナビゲーションの古典的な「what-happens-when」リポジトリに触発され、この文書はLLMチャットインタラクションに対するプロダクションシステムの視点を提供します。

Claude AI実行エージェントのための実用的なプロンプト構造
開発者が、API呼び出し、データ抽出、マルチステップワークフローを実行するClaude AIエージェントの幻覚を減らしたプロンプトエンジニアリング技術を共有。主な戦略には、プロンプトを契約のように書くこと、トークンの40%をエラーハンドリングに割り当てること、『待機』と『停止』の条件を分けることが含まれます。

RTX 4070 SuperでQwen 3.6とGemma 4モデルを実行する:12GB VRAMベンチマーク
Redditユーザーが、12GBのRTX 4070 Super上でllama.cppを使用し、最適化設定でQwen3.6-35B-A3B、Qwen3.6-27B、Gemma 4 26B、Gemma 4 31Bの詳細な速度ベンチマークを共有。

Power AutomateとFastMCPサーバーを介してClaudeにM365アクセスを付与する
ある開発者が、ClaudeがMicrosoft 365(受信トレイ、カレンダー、OneDrive、Planner、Excel、Word)とやり取りできる軽量MCPサーバーを構築しました。Power Automateウェブフックを使用しており、管理者のGraph権限は不要です。