AGENTS.md vs manuell: KI-Agenten 20% teurer

Forschungsergebnisse zu AGENTS.md-Dateien

Eine neue Studie von ETH Zürich-Forschern stellt die weit verbreitete Branchenpraxis der Verwendung von AGENTS.md-Dateien mit KI-Coding-Agenten in Frage. Die von Thibaud Gloaguen, Niels Mündler, Mark Müller, Veselin Raychev und Martin Vechev durchgeführte Untersuchung liefert empirische Belege dafür, dass diese Kontextdateien KI-Agenten oft eher behindern als helfen.

Methodik und Tests

Das Team erstellte AGENTbench, einen neuartigen Datensatz mit 138 realen Python-Aufgaben aus Nischen-Repositories, um Verzerrungen durch populäre Benchmarks wie SWE-bench zu vermeiden, die KI-Modelle möglicherweise auswendig gelernt haben. Sie testeten vier Agenten: Claude 3.5 Sonnet, Codex GPT-5.2, GPT-5.1 mini und Qwen Code in drei Szenarien:

Keine Kontextdatei
LLM-generierte AGENTS.md-Datei
Menschlich verfasste AGENTS.md-Datei

Die Leistung wurde anhand von drei Indikatoren gemessen: Erfolgsquote der Aufgaben (bestimmt durch Repository-Unit-Tests), Anzahl der Agentenschritte und gesamte Inferenzkosten.

Hauptergebnisse

LLM-generierte Kontextdateien verschlechterten die Leistung und reduzierten die Erfolgsquote der Aufgaben im Durchschnitt um 3 % im Vergleich zur Verwendung ohne Kontextdatei. Diese Dateien erhöhten konsequent die Anzahl der Schritte, die Agenten ausführten, und trieben die Inferenzkosten um über 20 % in die Höhe.

Menschlich verfasste Dateien zeigten marginale Verbesserungen mit einer durchschnittlichen Steigerung der Erfolgsquote um 4 % auf AGENTbench, doch dies ging mit einem parallelen Anstieg der Schritte einher, der die Kosten um bis zu 19 % erhöhte.

Die Aufnahme von Architekturübersichten oder Repository-Strukturerklärungen in AGENTS.md-Dateien reduzierte nicht die Zeit, die Modelle für das Auffinden relevanter Dateien für Aufgaben benötigten.

Verhaltensanalyse

Spurenanalysen zeigten, dass Agenten den Anweisungen in AGENTS.md-Dateien generell folgten, was dazu führte, dass sie mehr Tests durchführten, mehr Dateien lasen, mehr grep-Suchen ausführten und mehr Code-Qualitätsprüfungen vornahmen. Obwohl gründlich, war dieses Verhalten oft unnötig für die Lösung spezifischer Aufgaben, wodurch Reasoning-Modelle dazu gezwungen wurden, „härter zu denken“, ohne bessere endgültige Patches zu liefern.

Praktische Empfehlungen

Die Forscher empfehlen, LLM-generierte Kontextdateien vollständig wegzulassen und menschlich verfasste Anweisungen auf nicht ableitbare Details zu beschränken, wie hochspezifische Tools oder benutzerdefinierte Build-Befehle. Sie weisen darauf hin, dass zwar 60.000 Open-Source-Repositories derzeit Kontextdateien wie AGENTS.md enthalten und viele Agenten-Frameworks integrierte Befehle zu deren automatischer Generierung bieten, diese Dateien jedoch nur marginale Auswirkungen auf das Agentenverhalten haben.

📖 Read the full source: HN AI Agents