Estudio de ETH Zurich Cuestiona el Valor de los Archivos AGENTS.md para Agentes de IA de Programación

✍️ OpenClawRadar📅 Publicado: 8 de marzo de 2026🔗 Source
Estudio de ETH Zurich Cuestiona el Valor de los Archivos AGENTS.md para Agentes de IA de Programación
Ad

Hallazgos de investigación sobre archivos AGENTS.md

Un nuevo artículo de investigadores de ETH Zurich cuestiona la práctica generalizada de la industria de usar archivos AGENTS.md con agentes de codificación de IA. El estudio, realizado por Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev y Martin Vechev, proporciona evidencia empírica de que estos archivos de contexto a menudo obstaculizan en lugar de ayudar a los agentes de IA.

Metodología y pruebas

El equipo construyó AGENTbench, un nuevo conjunto de datos de 138 tareas reales de Python obtenidas de repositorios especializados para evitar sesgos de puntos de referencia populares como SWE-bench que los modelos de IA podrían haber memorizado. Probaron cuatro agentes: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini y Qwen Code en tres escenarios:

  • Sin archivo de contexto
  • Archivo AGENTS.md generado por LLM
  • Archivo AGENTS.md escrito por humanos

El rendimiento se midió usando tres indicadores proxy: tasas de éxito de tareas (determinadas por pruebas unitarias del repositorio), número de pasos del agente y costos generales de inferencia.

Resultados clave

Los archivos de contexto generados por LLM degradaron el rendimiento, reduciendo las tasas de éxito de tareas en un promedio del 3% en comparación con no proporcionar ningún archivo de contexto. Estos archivos aumentaron consistentemente el número de pasos que tomaron los agentes, elevando los costos de inferencia en más del 20%.

Los archivos escritos por humanos mostraron ganancias marginales con un aumento promedio del 4% en la tasa de éxito de tareas en AGENTbench, pero esto vino con un aumento paralelo en pasos, elevando los costos hasta en un 19%.

Incluir resúmenes arquitectónicos o explicaciones de estructura de repositorio en archivos AGENTS.md no redujo el tiempo que los modelos dedicaron a localizar archivos relevantes para las tareas.

Ad

Análisis de comportamiento

El análisis de trazas reveló que los agentes generalmente seguían las instrucciones en los archivos AGENTS.md, lo que los llevaba a ejecutar más pruebas, leer más archivos, realizar más búsquedas grep y realizar más verificaciones de calidad de código. Aunque exhaustivo, este comportamiento a menudo era innecesario para resolver tareas específicas, obligando a los modelos de razonamiento a "pensar" más sin producir mejores parches finales.

Recomendaciones prácticas

Los investigadores recomiendan omitir por completo los archivos de contexto generados por LLM y limitar las instrucciones escritas por humanos a detalles no inferibles, como herramientas altamente específicas o comandos de compilación personalizados. Señalan que, aunque 60,000 repositorios de código abierto actualmente contienen archivos de contexto como AGENTS.md, y muchos marcos de agentes incluyen comandos integrados para generarlos automáticamente, estos archivos tienen solo efectos marginales en el comportamiento del agente.

📖 Leer la fuente completa: HN AI Agents

Ad

👀 Ver también

Anthropic cambia los términos de suscripción, los usuarios de OpenClaw ahora facturados por separado por el uso de agentes
Noticias

Anthropic cambia los términos de suscripción, los usuarios de OpenClaw ahora facturados por separado por el uso de agentes

Anthropic ha restringido las suscripciones Claude Max para cubrir solo superficies de primera parte como Claude.ai y Claude Code, y ahora todo el uso de agentes de terceros se factura como 'Uso Extra' por token. Los usuarios tienen cuatro opciones: mantenerse en Max y pagar extra, cambiarse a la API de Anthropic, cambiar de proveedor o usar enrutamiento inteligente con Manifest.

OpenClawRadar
¿Por qué un desarrollador deja etiquetas de coautor de IA en los commits?
Noticias

¿Por qué un desarrollador deja etiquetas de coautor de IA en los commits?

Un desarrollador explica por qué incluye deliberadamente 'Co-Authored-by: Claude' en sus commits de Git, comparándolo con los datos EXIF en fotografía y discutiendo los desafíos de los cambios de código asistidos quirúrgicamente por IA.

OpenClawRadar
Claude-Code v2.1.108 agrega controles de almacenamiento en caché de prompts, función de resumen y descubrimiento de comandos de barra diagonal.
Noticias

Claude-Code v2.1.108 agrega controles de almacenamiento en caché de prompts, función de resumen y descubrimiento de comandos de barra diagonal.

Claude-Code v2.1.108 introduce las variables de entorno ENABLE_PROMPT_CACHING_1H y FORCE_PROMPT_CACHING_5M para controlar el TTL de la caché, añade una función de resumen de sesión configurable mediante /config o /recap, y permite que el modelo descubra comandos de barra integrados a través de la herramienta Skill.

OpenClawRadar
Liquid AI lanza el modelo LFM2.5-350M para bucles agentivos.
Noticias

Liquid AI lanza el modelo LFM2.5-350M para bucles agentivos.

Liquid AI lanzó LFM2.5-350M, un modelo de 350 millones de parámetros entrenado para extracción confiable de datos y uso de herramientas. Ocupa menos de 500MB cuando está cuantizado y supera a modelos más grandes como Qwen3.5-0.8B en la mayoría de los benchmarks, siendo más rápido y eficiente en memoria.

OpenClawRadar