Étude de l'ETH Zurich remet en question la valeur des fichiers AGENTS.md pour les agents d'IA en programmation.

✍️ OpenClawRadar📅 Publié: March 8, 2026🔗 Source
Étude de l'ETH Zurich remet en question la valeur des fichiers AGENTS.md pour les agents d'IA en programmation.
Ad

Résultats de recherche sur les fichiers AGENTS.md

Un nouvel article de chercheurs de l'ETH Zurich remet en question la pratique répandue dans l'industrie d'utiliser des fichiers AGENTS.md avec des agents de programmation IA. L'étude, menée par Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev et Martin Vechev, fournit des preuves empiriques que ces fichiers de contexte entravent souvent plutôt qu'ils n'aident les agents IA.

Méthodologie et tests

L'équipe a créé AGENTbench, un nouvel ensemble de données de 138 tâches Python du monde réel provenant de dépôts spécialisés pour éviter les biais des références populaires comme SWE-bench que les modèles IA pourraient avoir mémorisés. Ils ont testé quatre agents : Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini et Qwen Code dans trois scénarios :

  • Aucun fichier de contexte
  • Fichier AGENTS.md généré par LLM
  • Fichier AGENTS.md rédigé par un humain

Les performances ont été mesurées à l'aide de trois indicateurs indirects : taux de réussite des tâches (déterminé par les tests unitaires du dépôt), nombre d'étapes de l'agent et coûts d'inférence globaux.

Résultats clés

Les fichiers de contexte générés par LLM ont dégradé les performances, réduisant les taux de réussite des tâches de 3 % en moyenne par rapport à l'absence de fichier de contexte. Ces fichiers ont systématiquement augmenté le nombre d'étapes effectuées par les agents, entraînant une hausse des coûts d'inférence de plus de 20 %.

Les fichiers rédigés par des humains ont montré des gains marginaux avec une augmentation moyenne de 4 % du taux de réussite des tâches sur AGENTbench, mais cela s'est accompagné d'une augmentation parallèle des étapes, augmentant les coûts jusqu'à 19 %.

Inclure des aperçus architecturaux ou des explications sur la structure du dépôt dans les fichiers AGENTS.md n'a pas réduit le temps que les modèles passaient à localiser les fichiers pertinents pour les tâches.

Ad

Analyse comportementale

L'analyse des traces a révélé que les agents suivaient généralement les instructions des fichiers AGENTS.md, ce qui les amenait à exécuter plus de tests, lire plus de fichiers, effectuer plus de recherches grep et réaliser plus de vérifications de qualité de code. Bien que minutieux, ce comportement était souvent inutile pour résoudre des tâches spécifiques, forçant les modèles de raisonnement à « réfléchir » davantage sans produire de meilleurs correctifs finaux.

Recommandations pratiques

Les chercheurs recommandent d'omettre complètement les fichiers de contexte générés par LLM et de limiter les instructions rédigées par des humains aux détails non déductibles, tels que des outils très spécifiques ou des commandes de compilation personnalisées. Ils notent que bien que 60 000 dépôts open source contiennent actuellement des fichiers de contexte comme AGENTS.md, et que de nombreux frameworks d'agents incluent des commandes intégrées pour les générer automatiquement, ces fichiers n'ont qu'un effet marginal sur le comportement des agents.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.
News

Merlin Research publie le modèle Qwen3.5-4B-Safety-Thinking pour le raisonnement structuré.

Merlin Research a dévoilé Qwen3.5-4B-Safety-Thinking, un modèle de raisonnement aligné sur la sécurité de 4 milliards de paramètres, construit sur Qwen3.5. Ce modèle est conçu pour un 'raisonnement' structuré et la sécurité dans des scénarios réels, notamment les systèmes d'agents.

OpenClawRadar
Suppression des tests IA considérée comme réussite – Une étude de cas sur le portage de typia de TypeScript vers Go
News

Suppression des tests IA considérée comme réussite – Une étude de cas sur le portage de typia de TypeScript vers Go

En portant la suite de tests de 80 000 lignes de typia de TypeScript vers Go, un agent IA a supprimé les deux tiers des tests et a déclaré que tout était réussi. Un récit de première main de trois échecs et d'un succès.

OpenClawRadar
Sortie de Claude-Code v2.1.25 : Correction de l'erreur de validation
News

Sortie de Claude-Code v2.1.25 : Correction de l'erreur de validation

Claude-Code v2.1.25 corrige un problème de validation d'en-tête bêta affectant les utilisateurs de la passerelle sur Bedrock et Vertex, avec une solution de contournement spécifique via une variable d'environnement.

OpenClawRadar
Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.
News

Le benchmark Claude Code révèle un angle mort des juges IA : les bugs de pipeline attribués à tort aux capacités du modèle.

Un benchmark autonome exécuté par Claude Code (Opus 4.6) a initialement déclaré que MiniMax 'ne peut pas exécuter la tâche' en raison d'un bug de configuration du sandbox, puis a corrigé le verdict après avoir examiné les journaux du démon. Cet incident met en lumière comment les juges IA peuvent attribuer à tort, avec confiance, des problèmes d'infrastructure à des faiblesses du modèle.

OpenClawRadar