Aplicando la Arquitectura de Claude Code a Modelos Locales de 9B: Hallazgos Clave y Optimizaciones

✍️ OpenClawRadar📅 Publicado: 4 de abril de 2026🔗 Source
Aplicando la Arquitectura de Claude Code a Modelos Locales de 9B: Hallazgos Clave y Optimizaciones
Ad

Configuración Experimental y Descubrimiento Clave

El desarrollador utilizó una RTX 5070 Ti (16GB VRAM) con qwen3.5:9b a través de Ollama (6.6GB) y el marco de agente local OpenClaw. Después de 18 pruebas y 10 optimizaciones, el hallazgo clave fue que qwen3.5:9b tiene llamadas a herramientas estructuradas nativas, mientras que qwen2.5-coder:14b y qwen2.5:14b colocan JSON en el campo de contenido en lugar de llamadas a herramientas adecuadas, lo que requiere análisis adicional.

Comparación de Rendimiento

Comparación del rendimiento del modelo:

  • qwen3.5:9b: Estructura de llamadas a herramientas nativa, cadena de pensamiento habilitada, 39 tok/s
  • qwen2.5-coder:14b: Llamadas a herramientas rotas (en campo de contenido), sin cadena de pensamiento, ~30 tok/s
  • qwen2.5:14b: Llamadas a herramientas rotas (en campo de contenido), sin cadena de pensamiento, ~35 tok/s

10 Optimizaciones de la Arquitectura de Claude Code

  • Prompt de sistema estructurado → +600% calidad de salida (prueba A/B: 4 problemas encontrados vs 25+)
  • MicroCompact (compresión de resultados de herramientas) → 80-93% compresión, 11KB reducido a 367 caracteres
  • Corte forzado (transición explorar→producir) → Resolvió bucles de exploración donde los modelos de 9B se atascan leyendo archivos sin producir resultados
  • think=false → 8-10x eficiencia de tokens, elimina contaminación de lenguaje
  • Carga diferida de ToolSearch → -60% espacio de prompt (229 vs 568 tokens)
  • Sistema de memoria de cuatro tipos (usuario/retroalimentación/proyecto/referencia) → Respuestas personalizadas
  • Bifurcación de caché KV → Efecto mínimo en GPU única (1.1x), necesita vLLM
  • Disciplina de escritura estricta → Verificar antes de actualizar memoria, previene corrupción de memoria
  • Arranque en paralelo → 9% más rápido inicio en frío
  • Seguimiento de ruptura de caché → Ollama almacena en caché prompts idénticos (182ms→75ms)
Ad

Hallazgo Principal: La Autodisciplina como Límite Real

El mayor hallazgo fue que el límite real para los modelos de 9B no es la capacidad de razonamiento o la precisión en el uso de herramientas, sino la autodisciplina: saber cuándo dejar de explorar y comenzar a producir resultados. Sin el corte forzado, el modelo usó los 12 pasos leyendo archivos y produjo 0 bytes de informe. Con corte forzado: 5 pasos de lectura + 1 paso de escritura = 6080 bytes de informe estructurado.

Lo que qwen3.5:9b Realmente Puede Hacer

  • Leer scripts bash de 800 líneas y encontrar errores reales (condiciones de carrera, operaciones no atómicas) — 2 min
  • Diseñar una arquitectura de sistema de retroalimentación de ventas — documento de 8.7KB en 2.5 min
  • Construir un proyecto completo (calculadora + pruebas + ejecutar pruebas) — 28 segundos
  • Ejecución autónoma de 10 pasos: escribir scraper web → falla pip install → encontrar solución alternativa → reintentar → pruebas pasan — cero intervención humana
  • Pipeline completo de mini-fábrica: buscar → escribir artículo → revisar → publicar en HTML — 2.5 min

Rendimiento Completo del Motor

Las 10 optimizaciones se empaquetaron en un solo motor Python (~280 líneas). Resultados de la primera ejecución:

  • Arranque: 527ms (memoria paralela + calentamiento del modelo)
  • Explorar: 5 pasos de herramientas con MicroCompact (88% compresión)
  • Producir: 1947 caracteres de informe estructurado
  • Total: 39.4s / costo cero de API

Lo que No Funcionó

  • Bifurcación de caché KV en GPU única (necesita multi-GPU o vLLM)
  • Presupuesto de pasos en el prompt del sistema (el modelo ignora meta-instrucciones sobre su propio comportamiento)
  • Serie qwen2.5 para llamadas a herramientas (problemas de formato)

El desarrollador ejecutó esto en WSL2 + Ubuntu 24.04 y está dispuesto a compartir más detalles o el código del motor.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Código VT: Agente de Codificación TUI de Código Abierto en Rust con Soporte Multi- Proveedor y Habilidades de Agente
Herramientas

Código VT: Agente de Codificación TUI de Código Abierto en Rust con Soporte Multi- Proveedor y Habilidades de Agente

VT Code es un agente de codificación de interfaz de usuario de terminal (TUI) basado en Rust que admite Anthropic, OpenAI, Gemini y Codex, con inferencia local a través de LM Studio y Ollama. Incluye Agent Skills, Model Context Protocol y Agent Client Protocol.

OpenClawRadar
Bot de GitHub autoalojado ejecuta Claude Code con más de 40 desencadenadores de webhook y herramientas MCP
Herramientas

Bot de GitHub autoalojado ejecuta Claude Code con más de 40 desencadenadores de webhook y herramientas MCP

Un bot autogestionado de GitHub utiliza el SDK de Claude Agent con todas las funciones de Claude Code, compatible con más de 40 desencadenantes de webhook, 4 servidores MCP integrados y flujos de trabajo personalizados basados en YAML para revisión de PR, corrección automática de CI y clasificación de incidencias.

OpenClawRadar
Usar un LLM local como subagente de código de Claude para reducir el uso de contexto
Herramientas

Usar un LLM local como subagente de código de Claude para reducir el uso de contexto

Un usuario de Reddit demuestra cómo Claude Code puede delegar tareas a un LLM local ejecutándose a través de LM Studio, manteniendo el contenido de los archivos fuera del contexto de Claude. La configuración utiliza un script de Python de ~120 líneas con la API de llamadas a herramientas de LM Studio para manejar operaciones de archivos localmente.

OpenClawRadar
Enjambre Abierto: Sistema de Código Abierto para Ejecutar Miles de Agentes de IA en Paralelo
Herramientas

Enjambre Abierto: Sistema de Código Abierto para Ejecutar Miles de Agentes de IA en Paralelo

Open Swarm es un sistema de código abierto que genera miles de agentes de IA paralelos con acceso completo a más de 150 herramientas de internet, incluyendo correo electrónico, redes sociales, Google Workspace, búsqueda web, ejecución de código y programación cron.

OpenClawRadar