Estudio ETH Zurich: Archivos AGENTS.md No Mejoran Agentes IA

Hallazgos de investigación sobre archivos AGENTS.md

Un nuevo artículo de investigadores de ETH Zurich cuestiona la práctica generalizada de la industria de usar archivos AGENTS.md con agentes de codificación de IA. El estudio, realizado por Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev y Martin Vechev, proporciona evidencia empírica de que estos archivos de contexto a menudo obstaculizan en lugar de ayudar a los agentes de IA.

Metodología y pruebas

El equipo construyó AGENTbench, un nuevo conjunto de datos de 138 tareas reales de Python obtenidas de repositorios especializados para evitar sesgos de puntos de referencia populares como SWE-bench que los modelos de IA podrían haber memorizado. Probaron cuatro agentes: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini y Qwen Code en tres escenarios:

Sin archivo de contexto
Archivo AGENTS.md generado por LLM
Archivo AGENTS.md escrito por humanos

El rendimiento se midió usando tres indicadores proxy: tasas de éxito de tareas (determinadas por pruebas unitarias del repositorio), número de pasos del agente y costos generales de inferencia.

Resultados clave

Los archivos de contexto generados por LLM degradaron el rendimiento, reduciendo las tasas de éxito de tareas en un promedio del 3% en comparación con no proporcionar ningún archivo de contexto. Estos archivos aumentaron consistentemente el número de pasos que tomaron los agentes, elevando los costos de inferencia en más del 20%.

Los archivos escritos por humanos mostraron ganancias marginales con un aumento promedio del 4% en la tasa de éxito de tareas en AGENTbench, pero esto vino con un aumento paralelo en pasos, elevando los costos hasta en un 19%.

Incluir resúmenes arquitectónicos o explicaciones de estructura de repositorio en archivos AGENTS.md no redujo el tiempo que los modelos dedicaron a localizar archivos relevantes para las tareas.

Análisis de comportamiento

El análisis de trazas reveló que los agentes generalmente seguían las instrucciones en los archivos AGENTS.md, lo que los llevaba a ejecutar más pruebas, leer más archivos, realizar más búsquedas grep y realizar más verificaciones de calidad de código. Aunque exhaustivo, este comportamiento a menudo era innecesario para resolver tareas específicas, obligando a los modelos de razonamiento a "pensar" más sin producir mejores parches finales.

Recomendaciones prácticas

Los investigadores recomiendan omitir por completo los archivos de contexto generados por LLM y limitar las instrucciones escritas por humanos a detalles no inferibles, como herramientas altamente específicas o comandos de compilación personalizados. Señalan que, aunque 60,000 repositorios de código abierto actualmente contienen archivos de contexto como AGENTS.md, y muchos marcos de agentes incluyen comandos integrados para generarlos automáticamente, estos archivos tienen solo efectos marginales en el comportamiento del agente.

📖 Leer la fuente completa: HN AI Agents