7 fallas al ejecutar agentes de código en modelos locales pequeños

Después de semanas ejecutando tareas reales de codificación con múltiples archivos a través de modelos locales pequeños (sub-7B) y modelos pequeños en la nube en niveles gratuitos, un usuario de Reddit documentó puntos de fallo consistentes más allá del ruido típico de los benchmarks. Esto es lo que realmente falla.

Los delimitadores de Markdown son el fallo más común

Incluso con "output only raw code, no markdown formatting" en el prompt del sistema, la mayoría de los modelos envuelven las respuestas en triple comilla invertida. Qwen3.5:9b y Gemma4:e4b siguen las instrucciones de forma más consistente, pero todavía fallan ocasionalmente. La solución no es mejorar el prompt, sino eliminar los delimitadores en el post-procesado por defecto.

La salida estructurada no es fiable por debajo de 7B

Cuando los agentes necesitan JSON para listas de tareas o tipos de acción, los modelos pequeños fallan con mucha más frecuencia de lo que sugieren los benchmarks. Los benchmarks prueban JSON válido; el uso real añade instrucciones complejas de múltiples pasos con casos límite. Gemma4:e4b es el más fiable entre los modelos locales; Qwen3.5:9B le sigue de cerca. Codellamma tiene dificultades. En la nube, Llama 3.3 70B en Groq es sólido como una roca. Solución práctica: validar JSON, reintentar una vez con instrucción explícita, y luego recurrir a un analizador permisivo que extraiga JSON del texto.

Los modelos editan el archivo equivocado

Asigna a un modelo pequeño la tarea de renombrar validateToken a verifyToken con un mapa del proyecto con nombres similares, y puede renombrar validateUser o modificar el archivo incorrecto por completo. El modelo trata el mapa del proyecto como sugerencias, no como restricciones. Solución en la capa de orquestación: validar que las rutas de archivo existen y los nombres de función están en los archivos reclamados. Generar errores en caso de discrepancia: los modelos pequeños mienten con confianza.

Clasificación de pregunta vs. acción

Preguntar "¿cuántas líneas tiene utils.js?" debería ser de solo lectura. Pero si el ejecutor solo tiene un modo de edición, editará el archivo para contener la respuesta. La solución: el planificador debe clasificar las solicitudes en tipos de acción antes de la ejecución. Las consultas de solo lectura se dirigen a una ruta de código separada que nunca toca el disco.

Lo que funciona mejor de lo esperado

Control del presupuesto de tokens en el código: Contar tokens antes de cada llamada; los modelos pequeños no tienen concepto de límites de contexto y no serán breves si se confía en ellos.
Aislamiento por archivo: Enviar un archivo a la vez es drásticamente más fiable que dos: los modelos mezclan las correcciones.
Memoria de tipo síntesis: Almacenar un resumen de una frase de lo que hizo el modelo, no la lista completa de tareas. Funciona para deshacer y solicitudes aditivas.

Todavía por determinar

Si algún modelo local con menos de 7B es viable para un rol de agente: el autor no ha encontrado uno que no falle con suficiente frecuencia en la salida estructurada. Banco de pruebas de código abierto en github.com/razvannec para contribuciones.

📖 Leer la fuente original: r/LocalLLaMA

Qué falla al ejecutar agentes de código en modelos locales pequeños

Los delimitadores de Markdown son el fallo más común

La salida estructurada no es fiable por debajo de 7B

Los modelos editan el archivo equivocado

Clasificación de pregunta vs. acción

Lo que funciona mejor de lo esperado

Todavía por determinar

👀 Ver también

Configuración de OpenClaw para automatización de navegador con intervención humana usando Docker, Chromium y noVNC

Título del artículo: Caza de errores: Bloqueos de WireGuard y desajuste de MTU en GKE

Actualización de OpenClaw v2.0: Lista de Verificación Crítica Previo a la Actualización para Evitar Cambios Disruptivos

Consideraciones clave: Mac Mini M4 Pro vs Mac Studio M4 Max para inferencia local de LLM