ローカルClaude Code実行：llama.cppとQwen3.5 27B設定

ローカルClaude Code設定

開発者が、llama.cppを使用したローカルLLMでClaude Codeを完全にオフラインで実行するためのセットアップを文書化しました。このシステムは、Arch LinuxとStrix Haloハードウェア上で、unsloth/UD-Q4_K_XLで量子化されたQwen3.5 27Bを使用しています。

環境設定

テレメトリを無効にし、Claude Codeを完全にオフラインにするために、以下の環境変数を~/.bashrcに設定しました：

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

開発者は、環境変数よりもclaude/settings.jsonを使用する方が安定性と制御性が高いと指摘しています。

llama.cppサーバー設定

llama.cppサーバーは以下のパラメータで起動されました：

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

ROCBLAS_USE_HIPBLASLT=1フラグはStrix Haloハードウェアに必要であり、開発者はllama.cppのセットアップを専門化するために特定のハードウェアを研究する重要性を強調しました。

パフォーマンスベンチマーク

7回の実行が行われ、以下の結果が得られました：

実行1（ファイル操作）： 1分44秒、9.71トークン/秒、23Kコンテキスト、正しい出力
実行2（Gitクローン + コード読み取り）： 2分31秒、9.56トークン/秒、32.5Kコンテキスト、優れた品質
実行3（7日間計画 + ガイド）： 4分57秒、8.37トークン/秒、37.9Kコンテキスト、優れた品質
実行4（スキル評価）： 4分36秒、8.46トークン/秒、40Kコンテキスト、非常に良い品質（ウェブ検索が壊れている）
実行5（Pythonスクリプト作成）： 10分25秒、7.54トークン/秒、60.4Kコンテキスト、良い品質（7/10）
実行6（コードレビュー + 修正）： 9分29秒、7.42トークン/秒、65,535コンテキスト（クラッシュ）、非常に良い品質（8.5/10）
実行7（/compactコマンド）： 約10分、約8.07トークン/秒、66,680コンテキスト（失敗）、品質N/A

主な発見

生成速度はコンテキスト範囲全体で約24%低下しました：23Kコンテキストで9.71トークン/秒から65Kコンテキストで7.42トークン/秒へ
Claude Codeシステムプロンプトは22,870トークン（65K予算の35%）を消費します
自動コンパクションは完全に壊れていました：Claude Codeは200Kコンテキストを想定していたため、95%の閾値は190Kでしたが、65K制限はClaude Codeが想定したウィンドウの33%で到達しました
/compactコマンドには出力の余裕が必要です：4096最大出力トークンでは、コンパクションの要約が収まらず、16K以上のトークンが必要です
ウェブ検索機能はAnthropic接続なしでは壊れています；潜在的な解決策には、MCPを介したSearXNGが含まれます

📖 Read the full source: r/LocalLLaMA