Constraint Decay: LLM-Agenten verlieren 30 Punkte bei Backend-Aufgaben

Ein neues Paper von Francesco Dente, Dario Satriani und Paolo Papotti (arXiv:2605.06445) führt Constraint Decay ein – einen messbaren Leistungsabfall von LLM-Agenten, wenn strukturelle Anforderungen bei der Backend-Codegenerierung zunehmen. Die Autoren evaluieren Agenten bei 80 neuen Aufgaben und 20 Feature-Implementierungsaufgaben über acht Web-Frameworks hinweg, wobei ein fester API-Vertrag zur Isolierung struktureller Komplexität dient.

Wichtigste Ergebnisse

Fähige Konfigurationen verlieren im Durchschnitt 30 Punkte bei Assertion-Pass-Raten vom Basiswert (lockere Vorgaben) bis zu vollständig spezifizierten Aufgaben. Schwächere Konfigurationen nähern sich einer Pass-Rate von null.
Framework-Sensitivität ist extrem: Agenten haben Erfolg bei minimalistischen, expliziten Frameworks wie Flask, schneiden aber deutlich schlechter ab in konventionlastigen Umgebungen wie FastAPI und Django.
Hauptfehlerklasse: Datenebenen-Defekte – falsche Query-Zusammenstellung und ORM-Laufzeitverstöße machen den Großteil der Fehler aus.

Warum das wichtig ist

Bestehende Benchmarks belohnen funktional korrekte, aber strukturell willkürliche Lösungen. Produktionscode verlangt strikte Einhaltung von Architekturmustern, Datenbankschemas und ORM-Konventionen. Das Paper zeigt, dass die gleichzeitige Erfüllung funktionaler und struktureller Anforderungen weiterhin eine offene Herausforderung für Coding-Agenten ist – eine Realität, die jeder Entwickler kennt, der KI-Agenten in der Produktion einsetzt.

Wenn Sie LLM-Agenten für Backend-Arbeiten nutzen, achten Sie auf Constraint Decay: Mit zunehmenden Auflagen (z. B. Datenmodelle, Migrationen, Middleware) kann die Ausgabequalität des Agenten drastisch sinken. Die Daten legen nahe, dass Sie strukturelle Regeln explizit spezifizieren und statische Prüfer zusammen mit End-to-End-Verhaltenstests ausführen sollten.

📖 Quelle lesen: HN AI Agents

Einschränkungszerfall: Warum LLM-Agenten bei strukturiertem Backend-Code scheitern

Wichtigste Ergebnisse

Warum das wichtig ist

👀 Siehe auch

Anthropic trennt Claude-Abonnements von der Nutzung von Drittanbieter-Tools.

KI-Agenten töten Code-Reviews – Das Prinzipal-Agent-Problem erklärt

Anthropic analysiert 1 Million Claude-Gespräche: 6 % suchen persönliche Beratung, 9 % Schmeicheleirate, verbessert in Opus 4.7

Stand der Open-Source-KI: Parität erreicht, Produktionslücke bleibt