Qué falla al ejecutar agentes de código en modelos locales pequeños

✍️ OpenClawRadar📅 Publicado: 30 de abril de 2026🔗 Source
Qué falla al ejecutar agentes de código en modelos locales pequeños
Ad

Después de semanas ejecutando tareas reales de codificación con múltiples archivos a través de modelos locales pequeños (sub-7B) y modelos pequeños en la nube en niveles gratuitos, un usuario de Reddit documentó puntos de fallo consistentes más allá del ruido típico de los benchmarks. Esto es lo que realmente falla.

Los delimitadores de Markdown son el fallo más común

Incluso con "output only raw code, no markdown formatting" en el prompt del sistema, la mayoría de los modelos envuelven las respuestas en triple comilla invertida. Qwen3.5:9b y Gemma4:e4b siguen las instrucciones de forma más consistente, pero todavía fallan ocasionalmente. La solución no es mejorar el prompt, sino eliminar los delimitadores en el post-procesado por defecto.

La salida estructurada no es fiable por debajo de 7B

Cuando los agentes necesitan JSON para listas de tareas o tipos de acción, los modelos pequeños fallan con mucha más frecuencia de lo que sugieren los benchmarks. Los benchmarks prueban JSON válido; el uso real añade instrucciones complejas de múltiples pasos con casos límite. Gemma4:e4b es el más fiable entre los modelos locales; Qwen3.5:9B le sigue de cerca. Codellamma tiene dificultades. En la nube, Llama 3.3 70B en Groq es sólido como una roca. Solución práctica: validar JSON, reintentar una vez con instrucción explícita, y luego recurrir a un analizador permisivo que extraiga JSON del texto.

Los modelos editan el archivo equivocado

Asigna a un modelo pequeño la tarea de renombrar validateToken a verifyToken con un mapa del proyecto con nombres similares, y puede renombrar validateUser o modificar el archivo incorrecto por completo. El modelo trata el mapa del proyecto como sugerencias, no como restricciones. Solución en la capa de orquestación: validar que las rutas de archivo existen y los nombres de función están en los archivos reclamados. Generar errores en caso de discrepancia: los modelos pequeños mienten con confianza.

Ad

Clasificación de pregunta vs. acción

Preguntar "¿cuántas líneas tiene utils.js?" debería ser de solo lectura. Pero si el ejecutor solo tiene un modo de edición, editará el archivo para contener la respuesta. La solución: el planificador debe clasificar las solicitudes en tipos de acción antes de la ejecución. Las consultas de solo lectura se dirigen a una ruta de código separada que nunca toca el disco.

Lo que funciona mejor de lo esperado

  • Control del presupuesto de tokens en el código: Contar tokens antes de cada llamada; los modelos pequeños no tienen concepto de límites de contexto y no serán breves si se confía en ellos.
  • Aislamiento por archivo: Enviar un archivo a la vez es drásticamente más fiable que dos: los modelos mezclan las correcciones.
  • Memoria de tipo síntesis: Almacenar un resumen de una frase de lo que hizo el modelo, no la lista completa de tareas. Funciona para deshacer y solicitudes aditivas.

Todavía por determinar

Si algún modelo local con menos de 7B es viable para un rol de agente: el autor no ha encontrado uno que no falle con suficiente frecuencia en la salida estructurada. Banco de pruebas de código abierto en github.com/razvannec para contribuciones.

📖 Leer la fuente original: r/LocalLLaMA

Ad

👀 Ver también

Usando Claude para analizar patrones de escritura y mejorar instrucciones personalizadas
Guías

Usando Claude para analizar patrones de escritura y mejorar instrucciones personalizadas

Un usuario de Reddit describe un método para crear instrucciones personalizadas más efectivas haciendo que Claude analice 10 muestras de escritura para identificar patrones concretos como la evitación de puntuación y las fuentes de analogías, en lugar de depender de descripciones subjetivas del tono.

OpenClawRadar
Guía para Configurar Capas de Seguridad para Programar con Claude Code
Guías

Guía para Configurar Capas de Seguridad para Programar con Claude Code

Una guía paso a paso muestra cómo implementar capas de seguridad de defensa en profundidad para programar con Claude Code, cubriendo ganchos de pre-commit, archivos CLAUDE.md, agentes de revisión local, CI de GitHub Actions y protección de ramas.

OpenClawRadar
Conector de Todoist eliminado de Claude, se requiere configuración personalizada
Guías

Conector de Todoist eliminado de Claude, se requiere configuración personalizada

El conector oficial de Todoist ya no está disponible en Claude. Los usuarios pueden agregar Todoist como un conector personalizado usando la URL MCP https://ai.todoist.net/mcp, pero esto requiere una suscripción a Claude Pro o Max.

OpenClawRadar
Problemas de Actualización de OpenClaw v2026.3.22 y Soluciones en 30 Segundos
Guías

Problemas de Actualización de OpenClaw v2026.3.22 y Soluciones en 30 Segundos

La actualización OpenClaw v2026.3.22 introdujo 12 cambios disruptivos, incluyendo que ClawHub se convirtió en la tienda de complementos predeterminada y variables de entorno obsoletas. Cinco desastres comunes con soluciones rápidas incluyen picos de facturación de API, acciones no intencionadas de agentes y errores de configuración.

OpenClawRadar