Configuração Local do Claude Code com Qwen3.5 27B via llama.cpp

✍️ OpenClawRadar📅 Publicado: April 14, 2026🔗 Source
Configuração Local do Claude Code com Qwen3.5 27B via llama.cpp
Ad

Configuração Local do Claude Code

Um desenvolvedor documentou sua configuração para executar o Claude Code completamente offline usando um LLM local com llama.cpp. O sistema utiliza Qwen3.5 27B quantizado com unsloth/UD-Q4_K_XL no Arch Linux com hardware Strix Halo.

Configuração do Ambiente

Para desativar a telemetria e tornar o Claude Code totalmente offline, as seguintes variáveis de ambiente foram definidas no ~/.bashrc:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

O desenvolvedor observou que usar claude/settings.json é mais estável e controlável do que variáveis de ambiente.

Configuração do Servidor llama.cpp

O servidor llama.cpp foi iniciado com estes parâmetros:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

A flag ROCBLAS_USE_HIPBLASLT=1 foi necessária para o hardware Strix Halo, e o desenvolvedor enfatizou pesquisar hardware específico para especializar a configuração do llama.cpp.

Ad

Benchmarks de Desempenho

Sete execuções foram realizadas com os seguintes resultados:

  • Execução 1 (Operações de arquivo): 1m44s, 9,71 tokens/segundo, 23K contexto, saída correta
  • Execução 2 (Git clone + leitura de código): 2m31s, 9,56 t/s, 32,5K contexto, qualidade excelente
  • Execução 3 (Plano de 7 dias + guia): 4m57s, 8,37 t/s, 37,9K contexto, qualidade excelente
  • Execução 4 (Avaliação de habilidades): 4m36s, 8,46 t/s, 40K contexto, qualidade muito boa (busca na web quebrada)
  • Execução 5 (Escrever script Python): 10m25s, 7,54 t/s, 60,4K contexto, qualidade boa (7/10)
  • Execução 6 (Revisão de código + correção): 9m29s, 7,42 t/s, 65.535 contexto (FALHA), qualidade muito boa (8,5/10)
  • Execução 7 (comando /compact): ~10m, ~8,07 t/s, 66.680 contexto (falhou), qualidade N/A

Principais Conclusões

  • A velocidade de geração degradou aproximadamente 24% na faixa de contexto: de 9,71 t/s em 23K contexto para 7,42 t/s em 65K contexto
  • O prompt do sistema Claude Code consome 22.870 tokens (35% do orçamento de 65K)
  • A compactação automática estava completamente quebrada: o Claude Code assumiu contexto de 200K, então o limite de 95% era 190K, mas o limite de 65K foi atingido em 33% do que o Claude Code pensava ser a janela
  • O comando /compact precisa de margem de saída: com 4096 tokens de saída máxima, o resumo de compactação não cabia, exigindo 16K+ tokens
  • A funcionalidade de busca na web está quebrada sem conectividade Anthropic; soluções potenciais incluem SearXNG via MCP

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Projetando Restrições para Confiabilidade de Agentes de IA em Produção
Guides

Projetando Restrições para Confiabilidade de Agentes de IA em Produção

Uma postagem no Reddit detalha uma abordagem baseada em restrições para usar o Claude em operações complexas de base de código, enfatizando a enumeração explícita de modos de falha, execução em fases com pontos de verificação e regras anti-atalhos para alcançar zero builds quebrados ao remover 140 arquivos.

OpenClawRadar
Problemas de Atualização do OpenClaw v2026.3.22 e Correções em 30 Segundos
Guides

Problemas de Atualização do OpenClaw v2026.3.22 e Correções em 30 Segundos

A atualização OpenClaw v2026.3.22 introduziu 12 mudanças disruptivas, incluindo o ClawHub se tornando a loja de plugins padrão e variáveis de ambiente descontinuadas. Cinco desastres comuns com correções rápidas incluem picos na fatura da API, ações não intencionais do agente e erros de configuração.

OpenClawRadar
Lista de Verificação de Triagem de Desempenho do OpenClaw CLI
Guides

Lista de Verificação de Triagem de Desempenho do OpenClaw CLI

Um usuário do Reddit compartilha uma lista de verificação de seis etapas para diagnosticar comandos lentos do CLI do OpenClaw, incluindo comandos para medir latência, monitorar recursos do sistema, verificar logs do gateway e isolar problemas de configuração.

OpenClawRadar
Fluxo de Trabalho Prático com Claude Code para Equipes de Desenvolvimento
Guides

Fluxo de Trabalho Prático com Claude Code para Equipes de Desenvolvimento

Um usuário do Reddit compartilha sua apresentação interna sobre as melhores práticas do Claude Code, incluindo seleção de modelo, fluxos de trabalho estruturados e técnicas específicas de prompt para melhorar a qualidade da saída.

OpenClawRadar