Claude Code Architecture Applied to 9B Local Models: 10 Optimizations

Configuración Experimental y Descubrimiento Clave

El desarrollador utilizó una RTX 5070 Ti (16GB VRAM) con qwen3.5:9b a través de Ollama (6.6GB) y el marco de agente local OpenClaw. Después de 18 pruebas y 10 optimizaciones, el hallazgo clave fue que qwen3.5:9b tiene llamadas a herramientas estructuradas nativas, mientras que qwen2.5-coder:14b y qwen2.5:14b colocan JSON en el campo de contenido en lugar de llamadas a herramientas adecuadas, lo que requiere análisis adicional.

Comparación de Rendimiento

Comparación del rendimiento del modelo:

qwen3.5:9b: Estructura de llamadas a herramientas nativa, cadena de pensamiento habilitada, 39 tok/s
qwen2.5-coder:14b: Llamadas a herramientas rotas (en campo de contenido), sin cadena de pensamiento, ~30 tok/s
qwen2.5:14b: Llamadas a herramientas rotas (en campo de contenido), sin cadena de pensamiento, ~35 tok/s

10 Optimizaciones de la Arquitectura de Claude Code

Prompt de sistema estructurado → +600% calidad de salida (prueba A/B: 4 problemas encontrados vs 25+)
MicroCompact (compresión de resultados de herramientas) → 80-93% compresión, 11KB reducido a 367 caracteres
Corte forzado (transición explorar→producir) → Resolvió bucles de exploración donde los modelos de 9B se atascan leyendo archivos sin producir resultados
think=false → 8-10x eficiencia de tokens, elimina contaminación de lenguaje
Carga diferida de ToolSearch → -60% espacio de prompt (229 vs 568 tokens)
Sistema de memoria de cuatro tipos (usuario/retroalimentación/proyecto/referencia) → Respuestas personalizadas
Bifurcación de caché KV → Efecto mínimo en GPU única (1.1x), necesita vLLM
Disciplina de escritura estricta → Verificar antes de actualizar memoria, previene corrupción de memoria
Arranque en paralelo → 9% más rápido inicio en frío
Seguimiento de ruptura de caché → Ollama almacena en caché prompts idénticos (182ms→75ms)

Hallazgo Principal: La Autodisciplina como Límite Real

El mayor hallazgo fue que el límite real para los modelos de 9B no es la capacidad de razonamiento o la precisión en el uso de herramientas, sino la autodisciplina: saber cuándo dejar de explorar y comenzar a producir resultados. Sin el corte forzado, el modelo usó los 12 pasos leyendo archivos y produjo 0 bytes de informe. Con corte forzado: 5 pasos de lectura + 1 paso de escritura = 6080 bytes de informe estructurado.

Lo que qwen3.5:9b Realmente Puede Hacer

Leer scripts bash de 800 líneas y encontrar errores reales (condiciones de carrera, operaciones no atómicas) — 2 min
Diseñar una arquitectura de sistema de retroalimentación de ventas — documento de 8.7KB en 2.5 min
Construir un proyecto completo (calculadora + pruebas + ejecutar pruebas) — 28 segundos
Ejecución autónoma de 10 pasos: escribir scraper web → falla pip install → encontrar solución alternativa → reintentar → pruebas pasan — cero intervención humana
Pipeline completo de mini-fábrica: buscar → escribir artículo → revisar → publicar en HTML — 2.5 min

Rendimiento Completo del Motor

Las 10 optimizaciones se empaquetaron en un solo motor Python (~280 líneas). Resultados de la primera ejecución:

Arranque: 527ms (memoria paralela + calentamiento del modelo)
Explorar: 5 pasos de herramientas con MicroCompact (88% compresión)
Producir: 1947 caracteres de informe estructurado
Total: 39.4s / costo cero de API

Lo que No Funcionó

Bifurcación de caché KV en GPU única (necesita multi-GPU o vLLM)
Presupuesto de pasos en el prompt del sistema (el modelo ignora meta-instrucciones sobre su propio comportamiento)
Serie qwen2.5 para llamadas a herramientas (problemas de formato)

El desarrollador ejecutó esto en WSL2 + Ubuntu 24.04 y está dispuesto a compartir más detalles o el código del motor.

📖 Read the full source: r/LocalLLaMA

Aplicando la Arquitectura de Claude Code a Modelos Locales de 9B: Hallazgos Clave y Optimizaciones

Configuración Experimental y Descubrimiento Clave

Comparación de Rendimiento

10 Optimizaciones de la Arquitectura de Claude Code

Hallazgo Principal: La Autodisciplina como Límite Real

Lo que qwen3.5:9b Realmente Puede Hacer

Rendimiento Completo del Motor

Lo que No Funcionó

👀 Ver también

Claude Depura y Corrige Su Propio Error de Ruta UNC del Servidor de Sistema de Archivos MCP en Windows

ai-codex: Pre-indexa tu base de código para ahorrar tokens de Claude

el-chico-del-conocimiento: Convierte tu estantería en un tutor con las habilidades de Claude Code

Architect CLI: Herramienta de código abierto para orquestar agentes de IA sin interfaz en CI/CD