Configuración Local de Claude Code con Qwen3.5 27B mediante llama.cpp

✍️ OpenClawRadar📅 Publicado: 14 de abril de 2026🔗 Source
Configuración Local de Claude Code con Qwen3.5 27B mediante llama.cpp
Ad

Configuración Local de Claude Code

Un desarrollador documentó su configuración para ejecutar Claude Code completamente offline usando un LLM local con llama.cpp. El sistema utiliza Qwen3.5 27B cuantizado con unsloth/UD-Q4_K_XL en Arch Linux con hardware Strix Halo.

Configuración del Entorno

Para desactivar la telemetría y hacer que Claude Code funcione completamente offline, se configuraron las siguientes variables de entorno en ~/.bashrc:

export ANTHROPIC_BASE_URL="http://127.0.0.1:8001"
export ANTHROPIC_API_KEY="not-set"
export ANTHROPIC_AUTH_TOKEN="not-set"
export CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC=1
export CLAUDE_CODE_ENABLE_TELEMETRY=0
export DISABLE_AUTOUPDATER=1
export DISABLE_TELEMETRY=1
export CLAUDE_CODE_DISABLE_1M_CONTEXT=1
export CLAUDE_CODE_MAX_OUTPUT_TOKENS=4096
export CLAUDE_CODE_AUTO_COMPACT_WINDOW=32768

El desarrollador señaló que usar claude/settings.json es más estable y controlable que las variables de entorno.

Configuración del Servidor llama.cpp

El servidor llama.cpp se inició con estos parámetros:

ROCBLAS_USE_HIPBLASLT=1 ./build/bin/llama-server \
--model models/Qwen3.5-27B-Q4_K_M.gguf \
--alias "qwen3.5-27b" \
--port 8001 --ctx-size 65536 --n-gpu-layers 999 \
--flash-attn on --jinja --threads 8 \
--temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 \
--cache-type-k q8_0 --cache-type-v q8_0

La bandera ROCBLAS_USE_HIPBLASLT=1 fue necesaria para el hardware Strix Halo, y el desarrollador enfatizó investigar hardware específico para especializar la configuración de llama.cpp.

Ad

Benchmarks de Rendimiento

Se realizaron siete ejecuciones con los siguientes resultados:

  • Ejecución 1 (Operaciones de archivos): 1m44s, 9.71 tokens/segundo, 23K contexto, salida correcta
  • Ejecución 2 (Git clone + lectura de código): 2m31s, 9.56 t/s, 32.5K contexto, calidad excelente
  • Ejecución 3 (Plan de 7 días + guía): 4m57s, 8.37 t/s, 37.9K contexto, calidad excelente
  • Ejecución 4 (Evaluación de habilidades): 4m36s, 8.46 t/s, 40K contexto, calidad muy buena (búsqueda web rota)
  • Ejecución 5 (Escribir script Python): 10m25s, 7.54 t/s, 60.4K contexto, calidad buena (7/10)
  • Ejecución 6 (Revisión de código + corrección): 9m29s, 7.42 t/s, 65,535 contexto (FALLO), calidad muy buena (8.5/10)
  • Ejecución 7 (comando /compact): ~10m, ~8.07 t/s, 66,680 contexto (fallido), calidad N/A

Hallazgos Clave

  • La velocidad de generación se degradó aproximadamente 24% en el rango de contexto: desde 9.71 t/s en 23K contexto hasta 7.42 t/s en 65K contexto
  • El prompt del sistema Claude Code consume 22,870 tokens (35% del presupuesto de 65K)
  • La auto-compactación estaba completamente rota: Claude Code asumía 200K contexto, por lo que el umbral del 95% era 190K, pero el límite de 65K se alcanzó al 33% de lo que Claude Code pensaba que era la ventana
  • El comando /compact necesita margen de salida: con 4096 tokens de salida máxima, el resumen de compactación no cabía, requiriendo 16K+ tokens
  • La funcionalidad de búsqueda web está rota sin conectividad a Anthropic; soluciones potenciales incluyen SearXNG vía MCP

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Dos configuraciones $0 de OpenClaw utilizando modelos en la nube gratuitos o Ollama local.
Guías

Dos configuraciones $0 de OpenClaw utilizando modelos en la nube gratuitos o Ollama local.

Una publicación de Reddit detalla dos enfoques para ejecutar agentes de OpenClaw sin costo alguno: usar los niveles gratuitos de OpenRouter, Gemini y Groq con límites de tasa, o ejecutar modelos locales a través de Ollama sin claves API y sin que los datos salgan de tu máquina.

OpenClawRadar
Principios de escritura de habilidades para Claude Code, basados en 159 habilidades de código abierto.
Guías

Principios de escritura de habilidades para Claude Code, basados en 159 habilidades de código abierto.

Un desarrollador comparte 10 principios para escribir habilidades efectivas para Claude Code, basados en la construcción y mantenimiento de un registro de código abierto con 159 habilidades. Los principios incluyen enfoques prácticos como usar carpetas en lugar de archivos únicos, agregar secciones de advertencias e implementar ganchos bajo demanda.

OpenClawRadar
OpenClaw: Tu Guía Rápida de Referencia Definitiva
Guías

OpenClaw: Tu Guía Rápida de Referencia Definitiva

Sumérgete en los detalles de OpenClaw con nuestra útil hoja de referencia. Extrae características y funcionalidades críticas para agilizar tu experiencia de codificación en IA.

OpenClawRadar
Automatización de la Actualización de Tokens OAuth para Bots Usando Claude Code
Guías

Automatización de la Actualización de Tokens OAuth para Bots Usando Claude Code

Un usuario de Reddit comparte un método para evitar la expiración de tokens OAuth configurando Claude Code para que actualice automáticamente los tokens cada 8 horas, manteniendo los bots en funcionamiento continuo sin intervención manual.

OpenClawRadar