Guia Completo: Claude Code + Qwen3.5 27B Local com llama.cpp

Configuração Local do Claude Code

Um desenvolvedor documentou sua configuração para executar o Claude Code completamente offline usando um LLM local com llama.cpp. O sistema utiliza Qwen3.5 27B quantizado com unsloth/UD-Q4_K_XL no Arch Linux com hardware Strix Halo.

Configuração do Ambiente

Para desativar a telemetria e tornar o Claude Code totalmente offline, as seguintes variáveis de ambiente foram definidas no ~/.bashrc:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

O desenvolvedor observou que usar claude/settings.json é mais estável e controlável do que variáveis de ambiente.

Configuração do Servidor llama.cpp

O servidor llama.cpp foi iniciado com estes parâmetros:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

A flag ROCBLAS_USE_HIPBLASLT=1 foi necessária para o hardware Strix Halo, e o desenvolvedor enfatizou pesquisar hardware específico para especializar a configuração do llama.cpp.

Benchmarks de Desempenho

Sete execuções foram realizadas com os seguintes resultados:

Execução 1 (Operações de arquivo): 1m44s, 9,71 tokens/segundo, 23K contexto, saída correta
Execução 2 (Git clone + leitura de código): 2m31s, 9,56 t/s, 32,5K contexto, qualidade excelente
Execução 3 (Plano de 7 dias + guia): 4m57s, 8,37 t/s, 37,9K contexto, qualidade excelente
Execução 4 (Avaliação de habilidades): 4m36s, 8,46 t/s, 40K contexto, qualidade muito boa (busca na web quebrada)
Execução 5 (Escrever script Python): 10m25s, 7,54 t/s, 60,4K contexto, qualidade boa (7/10)
Execução 6 (Revisão de código + correção): 9m29s, 7,42 t/s, 65.535 contexto (FALHA), qualidade muito boa (8,5/10)
Execução 7 (comando /compact): ~10m, ~8,07 t/s, 66.680 contexto (falhou), qualidade N/A

Principais Conclusões

A velocidade de geração degradou aproximadamente 24% na faixa de contexto: de 9,71 t/s em 23K contexto para 7,42 t/s em 65K contexto
O prompt do sistema Claude Code consome 22.870 tokens (35% do orçamento de 65K)
A compactação automática estava completamente quebrada: o Claude Code assumiu contexto de 200K, então o limite de 95% era 190K, mas o limite de 65K foi atingido em 33% do que o Claude Code pensava ser a janela
O comando /compact precisa de margem de saída: com 4096 tokens de saída máxima, o resumo de compactação não cabia, exigindo 16K+ tokens
A funcionalidade de busca na web está quebrada sem conectividade Anthropic; soluções potenciais incluem SearXNG via MCP

📖 Read the full source: r/LocalLLaMA