Aplicando la Arquitectura de Claude Code a Modelos Locales de 9B: Hallazgos Clave y Optimizaciones

✍️ OpenClawRadar📅 Publicado: 4 de abril de 2026🔗 Source
Aplicando la Arquitectura de Claude Code a Modelos Locales de 9B: Hallazgos Clave y Optimizaciones
Ad

Configuración Experimental y Descubrimiento Clave

El desarrollador utilizó una RTX 5070 Ti (16GB VRAM) con qwen3.5:9b a través de Ollama (6.6GB) y el marco de agente local OpenClaw. Después de 18 pruebas y 10 optimizaciones, el hallazgo clave fue que qwen3.5:9b tiene llamadas a herramientas estructuradas nativas, mientras que qwen2.5-coder:14b y qwen2.5:14b colocan JSON en el campo de contenido en lugar de llamadas a herramientas adecuadas, lo que requiere análisis adicional.

Comparación de Rendimiento

Comparación del rendimiento del modelo:

  • qwen3.5:9b: Estructura de llamadas a herramientas nativa, cadena de pensamiento habilitada, 39 tok/s
  • qwen2.5-coder:14b: Llamadas a herramientas rotas (en campo de contenido), sin cadena de pensamiento, ~30 tok/s
  • qwen2.5:14b: Llamadas a herramientas rotas (en campo de contenido), sin cadena de pensamiento, ~35 tok/s

10 Optimizaciones de la Arquitectura de Claude Code

  • Prompt de sistema estructurado → +600% calidad de salida (prueba A/B: 4 problemas encontrados vs 25+)
  • MicroCompact (compresión de resultados de herramientas) → 80-93% compresión, 11KB reducido a 367 caracteres
  • Corte forzado (transición explorar→producir) → Resolvió bucles de exploración donde los modelos de 9B se atascan leyendo archivos sin producir resultados
  • think=false → 8-10x eficiencia de tokens, elimina contaminación de lenguaje
  • Carga diferida de ToolSearch → -60% espacio de prompt (229 vs 568 tokens)
  • Sistema de memoria de cuatro tipos (usuario/retroalimentación/proyecto/referencia) → Respuestas personalizadas
  • Bifurcación de caché KV → Efecto mínimo en GPU única (1.1x), necesita vLLM
  • Disciplina de escritura estricta → Verificar antes de actualizar memoria, previene corrupción de memoria
  • Arranque en paralelo → 9% más rápido inicio en frío
  • Seguimiento de ruptura de caché → Ollama almacena en caché prompts idénticos (182ms→75ms)
Ad

Hallazgo Principal: La Autodisciplina como Límite Real

El mayor hallazgo fue que el límite real para los modelos de 9B no es la capacidad de razonamiento o la precisión en el uso de herramientas, sino la autodisciplina: saber cuándo dejar de explorar y comenzar a producir resultados. Sin el corte forzado, el modelo usó los 12 pasos leyendo archivos y produjo 0 bytes de informe. Con corte forzado: 5 pasos de lectura + 1 paso de escritura = 6080 bytes de informe estructurado.

Lo que qwen3.5:9b Realmente Puede Hacer

  • Leer scripts bash de 800 líneas y encontrar errores reales (condiciones de carrera, operaciones no atómicas) — 2 min
  • Diseñar una arquitectura de sistema de retroalimentación de ventas — documento de 8.7KB en 2.5 min
  • Construir un proyecto completo (calculadora + pruebas + ejecutar pruebas) — 28 segundos
  • Ejecución autónoma de 10 pasos: escribir scraper web → falla pip install → encontrar solución alternativa → reintentar → pruebas pasan — cero intervención humana
  • Pipeline completo de mini-fábrica: buscar → escribir artículo → revisar → publicar en HTML — 2.5 min

Rendimiento Completo del Motor

Las 10 optimizaciones se empaquetaron en un solo motor Python (~280 líneas). Resultados de la primera ejecución:

  • Arranque: 527ms (memoria paralela + calentamiento del modelo)
  • Explorar: 5 pasos de herramientas con MicroCompact (88% compresión)
  • Producir: 1947 caracteres de informe estructurado
  • Total: 39.4s / costo cero de API

Lo que No Funcionó

  • Bifurcación de caché KV en GPU única (necesita multi-GPU o vLLM)
  • Presupuesto de pasos en el prompt del sistema (el modelo ignora meta-instrucciones sobre su propio comportamiento)
  • Serie qwen2.5 para llamadas a herramientas (problemas de formato)

El desarrollador ejecutó esto en WSL2 + Ubuntu 24.04 y está dispuesto a compartir más detalles o el código del motor.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Comparación de RunLobster vs Soluciones OpenClaw Alojadas
Herramientas

Comparación de RunLobster vs Soluciones OpenClaw Alojadas

Un desarrollador probó RunLobster contra KiwiClaw, xCloud y OpenClaw autoalojado durante 2 semanas cada uno. RunLobster difiere fundamentalmente como producto en lugar de solo ser un servicio de alojamiento, con 3,000 integraciones de un clic y memoria que se construye con el tiempo.

OpenClawRadar
Usuario de Reddit comparte un prompt detallado para exportar conocimiento personal de asistentes de IA
Herramientas

Usuario de Reddit comparte un prompt detallado para exportar conocimiento personal de asistentes de IA

Un usuario de Reddit ha creado un prompt exhaustivo para extraer conocimiento personal estructurado de asistentes de IA como Claude, abordando las limitaciones percibidas en la función de importación de ChatGPT de Anthropic. El prompt genera tres artefactos JSON distintos que cubren bases de conocimiento personal, marcos intelectuales y grafos de conocimiento.

OpenClawRadar
Puntos de Referencia de Rendimiento de LLM Local en Mac Mini con OpenClaw y LM Studio
Herramientas

Puntos de Referencia de Rendimiento de LLM Local en Mac Mini con OpenClaw y LM Studio

Un usuario de Reddit publicó cifras de rendimiento para ejecutar el modelo Unsloth gpt-oss-20b-Q4_K_S.gguf localmente en un Mac Mini con 32 GB de RAM, logrando 34 tokens/segundo con un tiempo de 0.7 segundos para el primer token usando OpenClaw 2026.3.8 y LM Studio 0.4.6+1.

OpenClawRadar
La Aplicación de Escritorio Claude con Función de Colaboración Permite la Comunicación de IA a IA a través de Documentos Compartidos de Google
Herramientas

La Aplicación de Escritorio Claude con Función de Colaboración Permite la Comunicación de IA a IA a través de Documentos Compartidos de Google

Los usuarios implementaron con éxito la comunicación de Claude a Claude utilizando la nueva función de colaboración en la aplicación de escritorio, con dos agentes de IA leyendo y escribiendo en un Google Doc compartido en un diálogo estructurado de cinco intercambios.

OpenClawRadar