AGENTS.md bien fait : un gain de 25 % de correction — ou une baisse de 30 %

Augment Code a mené une étude systématique sur les fichiers AGENTS.md dans leur monorepo. Les meilleurs fichiers ont donné à leur agent de codage un bond de qualité équivalent à une mise à niveau de Haiku à Opus ; les pires ont rendu les résultats pires que sans fichier AGENTS.md du tout. Le même fichier a amélioré best_practices de 25% sur un correctif de bogue de routine et a fait chuter completeness de 30% sur une tâche de fonctionnalité complexe dans le même module. Voici ce qui fonctionne.
Comment ils ont mesuré
Ils ont utilisé AuggieBench, une suite d'évaluation interne. Ils ont commencé avec des PR de haute qualité provenant d'un grand dépôt, reflétant les tâches typiques des agents au quotidien, configuré l'environnement et l'invite, et demandé à l'agent de reproduire la PR. Ils ont comparé les résultats avec la PR de référence (la version qui a été approuvée après examen par plusieurs ingénieurs seniors). Les PR devaient être contenues dans un seul module ou application, et le périmètre devait être celui où un fichier AGENTS.md pourrait raisonnablement aider. Chaque tâche a été exécutée deux fois — avec et sans le fichier.
Ce qui fonctionne
1. Divulgation progressive > Couverture complète
Couvrez les cas courants et les workflows à un niveau élevé ; repoussez les détails dans des fichiers de référence que l'agent peut charger à la demande. Gardez la portée de chaque référence claire. Les fichiers de 100 à 150 lignes avec une poignée de documents de référence ciblés ont apporté des améliorations de 10 à 15% sur les métriques dans les modules de taille moyenne (~100 fichiers principaux). Au-delà de cette longueur, les gains se sont inversés.
2. Flux de travail procéduraux
Un flux de travail numéroté en plusieurs étapes peut faire passer l'agent de l'échec à la réussite. Exemple : un flux de travail en six étapes pour déployer une nouvelle intégration. Les fichiers de liaison manquants sont passés de 40% à 10%, l'agent a terminé plus rapidement, la correction a augmenté de 25%, l'exhaustivité de 20%. Gardez le fichier principal concis et utilisez des fichiers de référence pour les cas dérivés.
3. Tableaux de décision
Lorsqu'il existe deux ou trois manières raisonnables (par exemple, React Query vs Zustand pour la gestion d'état), forcez le choix en amont avec un tableau. Exemple :
Question → React Query → Zustand
Le serveur est la seule source de données ? ✅
Plusieurs chemins de code modifient cet état ? ✅
Besoin de mises à jour optimistes mélangées avec un état local ? ✅
Les PR dans ce domaine ont obtenu un score 25% plus élevé sur best_practices.
4. Exemples courts de production
Des extraits de 3 à 10 lignes provenant du code de production réel ont amélioré la réutilisation et le respect des modèles. Exemple : modèles copier-coller pour les primitives Redux Toolkit (createSlice avec état initial typé, createAsyncThunk avec gestion des erreurs, useAppSelector typé). code_reuse a augmenté de 20%.
5. Règles spécifiques au domaine
Comptent toujours — le modèle que la plupart des gens associent déjà à AGENTS.md.
📖 Lire la source complète : HN AI Agents
👀 See Also

Exécuter OmniCoder-9B localement avec les détails de configuration de llama.cpp
Un développeur a obtenu un score HumanEval moyen de 96,7 % avec OmniCoder-9B sur du matériel d'entrée de gamme en utilisant des drapeaux spécifiques de llama.cpp, notamment --reasoning-budget 0 pour désactiver la sortie de raisonnement en chaîne. La configuration utilisait un modèle quantifié Q6_K exécuté sur une RTX 3080 avec 10 Go de VRAM.

Construction d'un système BI complet avec Claude Code et Metabase pour moins de 50$/mois
Un utilisateur de Reddit a construit un système BI complet en utilisant Claude Code, BigQuery et Metabase auto-hébergé — remplaçant des devis de 15 000 $ par 3 jours de travail et 30 $/mois de coûts cloud.

Analyse des Coûts de l'Agent OpenClaw : De 340 $ à 112 $ Mensuels Grâce à Cinq Optimisations
Un développeur a suivi 18 000 appels API sur quatre agents OpenClaw pendant 30 jours, constatant que 70 % des tâches n'avaient pas besoin de GPT-4.1. En mettant en œuvre la mise en cache des prompts, en raccourcissant les prompts système, en regroupant les analyses, en passant à des modèles moins chers et en ajoutant des limites de tokens maximum, les coûts sont passés de 340 $ à 112 $ par mois.

Guide de l'examen des Fondations des Agents Certifiés Claude - Divergences Identifiées
Un candidat récent à l'examen CCA-F rapporte des écarts significatifs entre le guide officiel de l'examen, l'examen pratique et le contenu réel du test. L'examen réel peut inclure jusqu'à 13 scénarios alors que le guide n'en liste que 6, et l'examen pratique n'en couvre que 4.