AGENTS.md : L'étude ETH Zurich montre une baisse de 3% des performances

Résultats de recherche sur les fichiers AGENTS.md

Un nouvel article de chercheurs de l'ETH Zurich remet en question la pratique répandue dans l'industrie d'utiliser des fichiers AGENTS.md avec des agents de programmation IA. L'étude, menée par Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev et Martin Vechev, fournit des preuves empiriques que ces fichiers de contexte entravent souvent plutôt qu'ils n'aident les agents IA.

Méthodologie et tests

L'équipe a créé AGENTbench, un nouvel ensemble de données de 138 tâches Python du monde réel provenant de dépôts spécialisés pour éviter les biais des références populaires comme SWE-bench que les modèles IA pourraient avoir mémorisés. Ils ont testé quatre agents : Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini et Qwen Code dans trois scénarios :

Aucun fichier de contexte
Fichier AGENTS.md généré par LLM
Fichier AGENTS.md rédigé par un humain

Les performances ont été mesurées à l'aide de trois indicateurs indirects : taux de réussite des tâches (déterminé par les tests unitaires du dépôt), nombre d'étapes de l'agent et coûts d'inférence globaux.

Résultats clés

Les fichiers de contexte générés par LLM ont dégradé les performances, réduisant les taux de réussite des tâches de 3 % en moyenne par rapport à l'absence de fichier de contexte. Ces fichiers ont systématiquement augmenté le nombre d'étapes effectuées par les agents, entraînant une hausse des coûts d'inférence de plus de 20 %.

Les fichiers rédigés par des humains ont montré des gains marginaux avec une augmentation moyenne de 4 % du taux de réussite des tâches sur AGENTbench, mais cela s'est accompagné d'une augmentation parallèle des étapes, augmentant les coûts jusqu'à 19 %.

Inclure des aperçus architecturaux ou des explications sur la structure du dépôt dans les fichiers AGENTS.md n'a pas réduit le temps que les modèles passaient à localiser les fichiers pertinents pour les tâches.

Analyse comportementale

L'analyse des traces a révélé que les agents suivaient généralement les instructions des fichiers AGENTS.md, ce qui les amenait à exécuter plus de tests, lire plus de fichiers, effectuer plus de recherches grep et réaliser plus de vérifications de qualité de code. Bien que minutieux, ce comportement était souvent inutile pour résoudre des tâches spécifiques, forçant les modèles de raisonnement à « réfléchir » davantage sans produire de meilleurs correctifs finaux.

Recommandations pratiques

Les chercheurs recommandent d'omettre complètement les fichiers de contexte générés par LLM et de limiter les instructions rédigées par des humains aux détails non déductibles, tels que des outils très spécifiques ou des commandes de compilation personnalisées. Ils notent que bien que 60 000 dépôts open source contiennent actuellement des fichiers de contexte comme AGENTS.md, et que de nombreux frameworks d'agents incluent des commandes intégrées pour les générer automatiquement, ces fichiers n'ont qu'un effet marginal sur le comportement des agents.

📖 Lire la source complète : HN AI Agents

Étude de l'ETH Zurich remet en question la valeur des fichiers AGENTS.md pour les agents d'IA en programmation.

Résultats de recherche sur les fichiers AGENTS.md

Méthodologie et tests

Résultats clés

Analyse comportementale

Recommandations pratiques

👀 See Also

Claude-Code v2.1.30 Publié avec des Améliorations PDF et OAuth

Benchmark Apple Silicon : Performance de Qwen3-VL sur les M3, M4 et M5 Max pour la classification Vision LLM

Claude Code v2.1.101 ajoute l'intégration d'équipe, la prise en charge TLS entreprise et corrige les fuites de mémoire.

N'utilisez pas l'IA pour écrire des choses que vous présentez comme votre propre travail