Análisis de 413,000 Ejecuciones de Agentes de IA Revela lo que los Hace Tener Éxito

Un nuevo análisis de 413.278 ejecuciones de agentes de ingeniería de software de IA del conjunto de datos CoderForge-Preview revela lo que separa las ejecuciones exitosas de las fallidas. El estudio examinó 17 mil millones de tokens de datos de comportamiento, comparando ejecuciones aprobadas versus fallidas en problemas idénticos.
Hallazgos clave de los datos
El análisis muestra que las prácticas comunes de ingeniería de software humanas pueden reducir realmente el rendimiento de los agentes de IA. Estos son los patrones específicos que surgieron:
- Deja de decirles a los agentes que "exploren primero": Forzar a los agentes a buscar o ver archivos antes de editar reduce su efectividad. A diferencia de los humanos con memoria de trabajo limitada, los agentes ya tienen la base de código en su ventana de contexto. Los primeros turnos dedicados a buscar y explorar indican que el agente está dando palos de ciego en lugar de aprender.
- Los enfoques basados en pruebas son obligatorios: El mayor predictor de ejecuciones exitosas es la fracción de comandos bash iniciales dedicados exclusivamente a ejecutar pruebas. Los agentes no deben editar a ciegas—los mensajes del sistema deben exigir ejecutar la suite de pruebas inmediatamente.
- Mantén a los agentes con una correa corta: Si un agente intenta editar 3 o más archivos en el primer 30% de su ejecución, las tasas de éxito caen significativamente. Dispersar ediciones en múltiples archivos indica confusión. Obliga a los agentes a arreglar una cosa a la vez.
- La perseverancia es una ilusión: Si un agente ejecuta exactamente el mismo comando bash dos veces al principio de la ejecución, está atrapado en un bucle en lugar de "pensar intensamente" o "intentar de nuevo". Rompe el bucle o reinicia la ejecución.
Cambios prácticos de implementación
El análisis recomienda cambios específicos en el scaffolding de los agentes:
- Deja de usar mensajes como:
"Explora la base de código, lee los archivos relevantes y descubre el error." - En su lugar, usa:
"Ejecuta la suite de pruebas inmediatamente para verificar la línea base. Haz cambios específicos en un máximo de 1 o 2 archivos. Vuelve a ejecutar las pruebas."
La idea clave es dejar de proyectar las limitaciones humanas en los LLM. Déjalos usar sus enormes ventanas de contexto y oblígalos a demostrar su trabajo con pruebas.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Claude ofrece crédito de uso adicional para los planes Pro, Max y Team.
Claude está otorgando a los suscriptores de los planes Pro, Max y Team un crédito de uso adicional único equivalente al precio de su suscripción. El crédito se puede utilizar en Claude, Claude Code, Claude Cowork y productos de terceros.

CC 2.1.128 Lanzamiento: Nuevo Agente de Fondo Integrado, Soporte Beta de C# y Desaprobación de Modelos
CC 2.1.128 (+1406 tokens) añade instrucciones integradas para agentes en segundo plano, soporte beta de C# tool-runner/Managed Agents, depreca Sonnet 4 y Opus 4 recomendando Opus 4.7/Sonnet 4.6, y elimina las plantillas de memoria de sesión.
FairyFuse logra una aceleración del kernel de 29.6x en CPUs mediante inferencia sin multiplicación de pesos ternarios
FairyFuse fusiona ocho sub-GEMVs de valor real en un único bucle AVX-512 mediante sumas/restas enmascaradas, logrando 32.4 tokens/s en Xeon 8558P y una aceleración de 1.24x respecto a llama.cpp Q4_K_M con calidad casi sin pérdidas.

Anam Cara-3: Avances en Avatares Interactivos de IA
Anam Cara-3 presenta avatares interactivos avanzados con un pipeline de dos etapas para la conversión de audio a video, logrando una velocidad y capacidad de respuesta impresionantes.