Estudio de ETH Zurich Cuestiona el Valor de los Archivos AGENTS.md para Agentes de IA de Programación

Hallazgos de investigación sobre archivos AGENTS.md
Un nuevo artículo de investigadores de ETH Zurich cuestiona la práctica generalizada de la industria de usar archivos AGENTS.md con agentes de codificación de IA. El estudio, realizado por Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev y Martin Vechev, proporciona evidencia empírica de que estos archivos de contexto a menudo obstaculizan en lugar de ayudar a los agentes de IA.
Metodología y pruebas
El equipo construyó AGENTbench, un nuevo conjunto de datos de 138 tareas reales de Python obtenidas de repositorios especializados para evitar sesgos de puntos de referencia populares como SWE-bench que los modelos de IA podrían haber memorizado. Probaron cuatro agentes: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini y Qwen Code en tres escenarios:
- Sin archivo de contexto
- Archivo AGENTS.md generado por LLM
- Archivo AGENTS.md escrito por humanos
El rendimiento se midió usando tres indicadores proxy: tasas de éxito de tareas (determinadas por pruebas unitarias del repositorio), número de pasos del agente y costos generales de inferencia.
Resultados clave
Los archivos de contexto generados por LLM degradaron el rendimiento, reduciendo las tasas de éxito de tareas en un promedio del 3% en comparación con no proporcionar ningún archivo de contexto. Estos archivos aumentaron consistentemente el número de pasos que tomaron los agentes, elevando los costos de inferencia en más del 20%.
Los archivos escritos por humanos mostraron ganancias marginales con un aumento promedio del 4% en la tasa de éxito de tareas en AGENTbench, pero esto vino con un aumento paralelo en pasos, elevando los costos hasta en un 19%.
Incluir resúmenes arquitectónicos o explicaciones de estructura de repositorio en archivos AGENTS.md no redujo el tiempo que los modelos dedicaron a localizar archivos relevantes para las tareas.
Análisis de comportamiento
El análisis de trazas reveló que los agentes generalmente seguían las instrucciones en los archivos AGENTS.md, lo que los llevaba a ejecutar más pruebas, leer más archivos, realizar más búsquedas grep y realizar más verificaciones de calidad de código. Aunque exhaustivo, este comportamiento a menudo era innecesario para resolver tareas específicas, obligando a los modelos de razonamiento a "pensar" más sin producir mejores parches finales.
Recomendaciones prácticas
Los investigadores recomiendan omitir por completo los archivos de contexto generados por LLM y limitar las instrucciones escritas por humanos a detalles no inferibles, como herramientas altamente específicas o comandos de compilación personalizados. Señalan que, aunque 60,000 repositorios de código abierto actualmente contienen archivos de contexto como AGENTS.md, y muchos marcos de agentes incluyen comandos integrados para generarlos automáticamente, estos archivos tienen solo efectos marginales en el comportamiento del agente.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

Investigadores de la UW planean usar cámaras portadas por maestros para entrenamiento de IA, padres pueden optar por no participar
Investigadores de la Universidad de Washington planearon que educadoras de preescolar usaran cámaras en primera persona para grabar a los niños y entrenar modelos de IA, con un modelo de consentimiento de exclusión voluntaria.

Occidente Olvidó Cómo Construir: Colapso de la Cadena de Suministro de Defensa y Lecciones para la Ingeniería de Software
Raytheon tuvo que traer de vuelta a ingenieros jubilados para reiniciar la producción de misiles Stinger a partir de planos en papel de hace 40 años. El mismo patrón se repite ahora en el software, donde décadas de optimización de costos han atrofiado el canal de talento y el conocimiento institucional.

Eligiendo el Mejor Proveedor de Tokens para las Necesidades de Tu API
Explora los factores clave a considerar al seleccionar un proveedor de tokens y APIs en la codificación y automatización de IA, basado en las ideas de la comunidad de OpenClaw.

Tres Brechas Críticas en OpenClaw para Agentes de IA de Producción
Un desarrollador identifica tres capacidades faltantes en OpenClaw que impiden que los agentes de IA funcionen como verdaderos empleados: auditabilidad, control granular de acciones y resolución de instrucciones.