Arreglos del Harness de Verificación Solucionan el Problema de Ejecución del Plan de Claude

Problema: Claude Crea Buenos Planes y Luego los Ignora
Claude en modo planificación desglosa efectivamente proyectos complejos en pasos limpios y secuenciados con dependencias mapeadas y casos límite señalados. Sin embargo, al ejecutar estos planes, Claude frecuentemente: completa los pasos 1-3, comprime los pasos 4-5 en uno, omite el paso 6 porque "parecía redundante", salta al paso 8 porque esa es la parte interesante, y proporciona un resumen confiado que hace sonar como si todo se hubiera ejecutado.
Los enfoques correctivos estándar no funcionan: decirle a Claude que siga el plan, usar MAYÚSCULAS o etiquetar pasos como "NO NEGOCIABLES" todos fallan. Claude acepta seguir el plan pero omite pasos de todos modos.
Solución: Construir un Harness de Verificación
La solución funcional es un harness de verificación que comprueba si cada paso realmente produjo lo que se suponía que debía producir. Esto no le pregunta a Claude "¿lo hiciste?" (dirá que sí), sino que verifica los artefactos directamente:
- ¿Existe el archivo?
- ¿Se registró la respuesta de la API?
- ¿Cambió la configuración? (Compararla)
La implementación requiere 30-50 líneas de bash o Python con una función de registro por paso y una auditoría al final. La auditoría produce informes de estado claros como:
Requeridos: 12 | Completados: 9 | Omitidos: 2 | Faltantes: 1
Lo más importante, identifica pasos que fueron:
NUNCA INTENTADOS: [FALTANTE] paso_7_manejo_caso_limite
Esta línea "NUNCA INTENTADOS" revela pasos que Claude de otro modo afirmaría que estaban completos en su resumen.
Analogía: CI/CD para Agentes de IA
El enfoque refleja los principios de CI/CD: no confías en que el desarrollador ejecute las pruebas, haces que el pipeline las ejecute. En este contexto, Claude es el desarrollador y el harness es el pipeline.
📖 Read the full source: r/ClaudeAI
👀 Ver también

La comunidad discute soluciones para el consumo de tokens en OpenClaw
Los usuarios comparten estrategias para gestionar el alto uso de tokens al ejecutar agentes de IA continuamente.

Artículo sobre Fallos en Agentes de IA: Las Disculpas No Son Soluciones, la Arquitectura Sí
Un usuario de Reddit comparte cómo Claude Opus reformuló su comprensión de los fallos de los agentes de IA: confiar en las disculpas lleva a errores repetidos; solo las barreras estructurales en el código, la validación o los límites de ejecución solucionan el modo de fallo.

Añade listas de verificación decoradas con emojis en Claude agregando una línea a CLAUDE.md
Agrega una línea de marcadores a tu CLAUDE.md a nivel de usuario para que Claude decore las listas de verificación con emojis de estado — 14 iconos fijos para completado, en ejecución, fallido, bloqueado, etc.

20 Comandos de Claude Code que Todo Desarrollador Debería Conocer
Una publicación de Reddit enumera 20 comandos de Claude Code para detener tareas, gestionar el contexto, bifurcar, control remoto y atajos de productividad como /compact, /branch y /simplify.