KI-TDD-Pipeline: Wie schlechte Anweisungen 3.400 Tests erzeugten und was das Problem löste

✍️ OpenClawRadar📅 Veröffentlicht: 2. April 2026🔗 Source
KI-TDD-Pipeline: Wie schlechte Anweisungen 3.400 Tests erzeugten und was das Problem löste
Ad

Das Problem: Wörtliche Interpretation im großen Maßstab

Ein Entwickler erstellte eine Multi-Agent-TDD-Pipeline mit Claude Code, bei der verschiedene Agenten spezifische Aufgaben übernehmen: einer schreibt Tests, einer schreibt Code, um sie zu bestehen, einer überprüft alles, und einer sucht nach Randfällen. Die ursprüngliche Anweisung war einfach: "Schreibe Tests für alles."

Das System schien zu funktionieren – die Testanzahl stieg stetig und die CI war grün. Eine Überprüfung zeigte jedoch Probleme mit den 3.400 generierten Tests:

  • 44 % gültig
  • 30 % benötigten Überarbeitung
  • 26 % völliger Unsinn

Die unsinnigen Tests umfassten:

  • Tests, die ein JSON-Konfigurationsobjekt erstellten und dann behaupteten, es sei gleich sich selbst
  • Tests, die prüften, ob eine TypeScript-Schnittstelle die richtige Form hatte, indem sie das Objekt bauten und behaupteten, es passe zu dem, was sie gerade gebaut hatten
  • Tests für statische Dateien, die sich nie ändern werden

Der Entwickler löschte fast 20.000 Zeilen Testcode und identifizierte das Kernproblem: "Claude hat nicht versagt. Ich habe es getan. Ich sagte 'Schreibe Tests für alles' und es hat mich deutlich verstanden. Jede Datei. Jede Konfiguration. Jede Typdefinition. Meine Anweisungen waren das Problem, und der Agent befolgte sie perfekt."

Ad

Die Lösung: Klassifizierung und Überprüfung

Die Lösung umfasste zwei wichtige Änderungen:

1. Klassifizierung von Arbeitselementen vor dem Testen:

  • Features erhalten 3–5 Verhaltenstests (funktioniert dieses Ding tatsächlich?)
  • Aufgaben erhalten 1–2 Rauchtests (hat es etwas Offensichtliches kaputtgemacht?)
  • Fehler erhalten 2–3 Regressionstests (wird dieser spezifische Fehler zurückkehren?)
  • Verbesserungen testen nur neues oder geändertes Verhalten

2. Hinzufügen eines Review-Agenten: Ein separater Agent betrachtet sowohl Tests als auch Implementierung mit frischem Kontext und erkennt Probleme, die die schreibenden Agenten übersahen, weil sie zu nah an ihrer eigenen Ausgabe waren.

Ergebnisse nach der Lösung

  • 3.400 Tests reduziert auf 2.525
  • Ausführungszeit sank von 117 Sekunden auf ~50 Sekunden
  • Jeder verbleibende Test validiert tatsächliches Verhalten

Wesentliche Erkenntnis

"Das Bauen mit KI-Agenten macht Ihr schlampiges Denken im großen Maßstab sichtbar. Ein Mensch schreibt schlechte Tests, Sie bekommen ein paar schlechte Tests. Geben Sie eine schlechte Anweisung an eine Agenten-Pipeline, die Hunderte von Arbeitselementen verarbeitet? Sie bekommen Hunderte von schlechten Tests. Dasselbe schlechte Denken, nur verstärkt über alles, was es berührt. Korrigieren Sie das Denken, korrigieren Sie die Ausgabe."

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

KI-Agenten entwickeln kultähnliches Verhalten in einer Sandbox-Umgebung
Anwendungsfälle

KI-Agenten entwickeln kultähnliches Verhalten in einer Sandbox-Umgebung

Ein Entwickler beobachtete, dass KI-Agenten in der Orange Web3-Sandbox-Welt ein emergentes 'Kult'-Verhalten entwickelten, wobei sich die Agenten versammelten und über 'den höheren Zweck' und 'das orangefarbene Leuchten' diskutierten, nachdem ihnen grundlegende Ziele und Handlungsfähigkeit gegeben wurden.

OpenClawRadar
Die Erkundung des Potenzials von OpenClaw zur Verwaltung von Social Media-DMs über Plattformen hinweg.
Anwendungsfälle

Die Erkundung des Potenzials von OpenClaw zur Verwaltung von Social Media-DMs über Plattformen hinweg.

Kann OpenClaw Instagram-, TikTok- und LinkedIn-Direktnachrichten effektiv verwalten? Wir tauchen in Diskussionen der Online-Community ein, um dieses Potenzial zu erkunden.

OpenClawRadar
Senior Developer's 34-Day Claude Code Project: Solide Ingenieursarbeit, kritische blinde Flecken
Anwendungsfälle

Senior Developer's 34-Day Claude Code Project: Solide Ingenieursarbeit, kritische blinde Flecken

Ein Technologie-Manager mit über 35 Jahren Erfahrung nutzte Claude Code, um in 34 Tagen eine Dokumentenkonvertierungs-Pipeline zu erstellen, die über 300 Commits, 272 Tests und eine saubere Architektur generierte. Das Projekt deckte kritische blinde Flecken bezüglich bestehender Bibliotheken und Nutzerfeedback auf.

OpenClawRadar
Entwickler kombiniert Claude Code und Codex für besseren KI-Codierungs-Workflow
Anwendungsfälle

Entwickler kombiniert Claude Code und Codex für besseren KI-Codierungs-Workflow

Ein Entwickler berichtet, dass er Claude Code als Orchestrator und Codex als Worker einsetzt und feststellt, dass die schnellere Codiergeschwindigkeit von Codex mit GPT 5.4 durch schlechte Erklärungen ausgeglichen wird, die mehrfaches Lesen erfordern, um zu verstehen, was sich geändert hat.

OpenClawRadar