Configuração Local do Claude Code com Qwen3.5 27B via llama.cpp

Configuração Local do Claude Code
Um desenvolvedor documentou sua configuração para executar o Claude Code completamente offline usando um LLM local com llama.cpp. O sistema utiliza Qwen3.5 27B quantizado com unsloth/UD-Q4_K_XL no Arch Linux com hardware Strix Halo.
Configuração do Ambiente
Para desativar a telemetria e tornar o Claude Code totalmente offline, as seguintes variáveis de ambiente foram definidas no ~/.bashrc:
export ANTHROPIC_BASE_URL="http://127.0.0.1:8001" export ANTHROPIC_API_KEY="not-set" export ANTHROPIC_AUTH_TOKEN="not-set" export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1 export CLAUDE_CODE_ENABLE_TELEMETRY=0 export DISABLE_AUTOUPDATER=1 export DISABLE_TELEMETRY=1 export CLAUDE_CODE_DISABLE_1M_CONTEXT=1 export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096 export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768
O desenvolvedor observou que usar claude/settings.json é mais estável e controlável do que variáveis de ambiente.
Configuração do Servidor llama.cpp
O servidor llama.cpp foi iniciado com estes parâmetros:
ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \ --model models/Qwen3.5-27B-Q4_K_M.gguf \ --alias "qwen3.5-27b" \ --port 8001 --ctx-size 65536 --n-gpu-layers 999 \ --flash-attn on --jinja --threads 8 \ --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \ --cache-type-k q8_0 --cache-type-v q8_0
A flag ROCBLAS_USE_HIPBLASLT=1 foi necessária para o hardware Strix Halo, e o desenvolvedor enfatizou pesquisar hardware específico para especializar a configuração do llama.cpp.
Benchmarks de Desempenho
Sete execuções foram realizadas com os seguintes resultados:
- Execução 1 (Operações de arquivo): 1m44s, 9,71 tokens/segundo, 23K contexto, saída correta
- Execução 2 (Git clone + leitura de código): 2m31s, 9,56 t/s, 32,5K contexto, qualidade excelente
- Execução 3 (Plano de 7 dias + guia): 4m57s, 8,37 t/s, 37,9K contexto, qualidade excelente
- Execução 4 (Avaliação de habilidades): 4m36s, 8,46 t/s, 40K contexto, qualidade muito boa (busca na web quebrada)
- Execução 5 (Escrever script Python): 10m25s, 7,54 t/s, 60,4K contexto, qualidade boa (7/10)
- Execução 6 (Revisão de código + correção): 9m29s, 7,42 t/s, 65.535 contexto (FALHA), qualidade muito boa (8,5/10)
- Execução 7 (comando /compact): ~10m, ~8,07 t/s, 66.680 contexto (falhou), qualidade N/A
Principais Conclusões
- A velocidade de geração degradou aproximadamente 24% na faixa de contexto: de 9,71 t/s em 23K contexto para 7,42 t/s em 65K contexto
- O prompt do sistema Claude Code consome 22.870 tokens (35% do orçamento de 65K)
- A compactação automática estava completamente quebrada: o Claude Code assumiu contexto de 200K, então o limite de 95% era 190K, mas o limite de 65K foi atingido em 33% do que o Claude Code pensava ser a janela
- O comando /compact precisa de margem de saída: com 4096 tokens de saída máxima, o resumo de compactação não cabia, exigindo 16K+ tokens
- A funcionalidade de busca na web está quebrada sem conectividade Anthropic; soluções potenciais incluem SearXNG via MCP
📖 Read the full source: r/LocalLLaMA
👀 See Also

Projetando Restrições para Confiabilidade de Agentes de IA em Produção
Uma postagem no Reddit detalha uma abordagem baseada em restrições para usar o Claude em operações complexas de base de código, enfatizando a enumeração explícita de modos de falha, execução em fases com pontos de verificação e regras anti-atalhos para alcançar zero builds quebrados ao remover 140 arquivos.

Problemas de Atualização do OpenClaw v2026.3.22 e Correções em 30 Segundos
A atualização OpenClaw v2026.3.22 introduziu 12 mudanças disruptivas, incluindo o ClawHub se tornando a loja de plugins padrão e variáveis de ambiente descontinuadas. Cinco desastres comuns com correções rápidas incluem picos na fatura da API, ações não intencionais do agente e erros de configuração.

Lista de Verificação de Triagem de Desempenho do OpenClaw CLI
Um usuário do Reddit compartilha uma lista de verificação de seis etapas para diagnosticar comandos lentos do CLI do OpenClaw, incluindo comandos para medir latência, monitorar recursos do sistema, verificar logs do gateway e isolar problemas de configuração.

Fluxo de Trabalho Prático com Claude Code para Equipes de Desenvolvimento
Um usuário do Reddit compartilha sua apresentação interna sobre as melhores práticas do Claude Code, incluindo seleção de modelo, fluxos de trabalho estruturados e técnicas específicas de prompt para melhorar a qualidade da saída.