Cómo Configurar Claude Code Local con Qwen3.5 27B y llama.cpp

Configuración Local de Claude Code

Un desarrollador documentó su configuración para ejecutar Claude Code completamente offline usando un LLM local con llama.cpp. El sistema utiliza Qwen3.5 27B cuantizado con unsloth/UD-Q4_K_XL en Arch Linux con hardware Strix Halo.

Configuración del Entorno

Para desactivar la telemetría y hacer que Claude Code funcione completamente offline, se configuraron las siguientes variables de entorno en ~/.bashrc:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

El desarrollador señaló que usar claude/settings.json es más estable y controlable que las variables de entorno.

Configuración del Servidor llama.cpp

El servidor llama.cpp se inició con estos parámetros:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

La bandera ROCBLAS_USE_HIPBLASLT=1 fue necesaria para el hardware Strix Halo, y el desarrollador enfatizó investigar hardware específico para especializar la configuración de llama.cpp.

Benchmarks de Rendimiento

Se realizaron siete ejecuciones con los siguientes resultados:

Ejecución 1 (Operaciones de archivos): 1m44s, 9.71 tokens/segundo, 23K contexto, salida correcta
Ejecución 2 (Git clone + lectura de código): 2m31s, 9.56 t/s, 32.5K contexto, calidad excelente
Ejecución 3 (Plan de 7 días + guía): 4m57s, 8.37 t/s, 37.9K contexto, calidad excelente
Ejecución 4 (Evaluación de habilidades): 4m36s, 8.46 t/s, 40K contexto, calidad muy buena (búsqueda web rota)
Ejecución 5 (Escribir script Python): 10m25s, 7.54 t/s, 60.4K contexto, calidad buena (7/10)
Ejecución 6 (Revisión de código + corrección): 9m29s, 7.42 t/s, 65,535 contexto (FALLO), calidad muy buena (8.5/10)
Ejecución 7 (comando /compact): ~10m, ~8.07 t/s, 66,680 contexto (fallido), calidad N/A

Hallazgos Clave

La velocidad de generación se degradó aproximadamente 24% en el rango de contexto: desde 9.71 t/s en 23K contexto hasta 7.42 t/s en 65K contexto
El prompt del sistema Claude Code consume 22,870 tokens (35% del presupuesto de 65K)
La auto-compactación estaba completamente rota: Claude Code asumía 200K contexto, por lo que el umbral del 95% era 190K, pero el límite de 65K se alcanzó al 33% de lo que Claude Code pensaba que era la ventana
El comando /compact necesita margen de salida: con 4096 tokens de salida máxima, el resumen de compactación no cabía, requiriendo 16K+ tokens
La funcionalidad de búsqueda web está rota sin conectividad a Anthropic; soluciones potenciales incluyen SearXNG vía MCP

📖 Read the full source: r/LocalLLaMA