TDD mit KI-Agenten: Ablauf für Website-Projekte

Entwicklungsworkflow mit KI-Agenten

Ein Entwickler skizziert seinen Ansatz zur Website-Entwicklung mithilfe von KI-Coding-Agenten mit einer testgetriebenen Entwicklungsmethodik. Er nutzt sowohl Claude Code für Arbeitsprojekte als auch lokale Modelle für private Projekte, insbesondere Qwen Code auf Basis von Qwen3.5-27B, das auf llama.cpp mit 2xRTX 3090 GPUs läuft.

Anfängliche Projekteinrichtung

Zu Beginn eines Projekts implementiert er grundlegende Module:

Grundlegendes DB-Schema
Grundlegende Auth-API
UI-Routing
Grundlegendes UI-Layout
Grundlegende API (für Admins und Benutzer)
Grundlegende API-/E2E-Tests (manuell oder von KI geschrieben)
Kontextdateien für Coding-Agenten (AGENTS.md, CLAUDE.md)

Iterativer Entwicklungsprozess

Nach der Einrichtung beginnt der iterative Prozess:

Detaillierte Spezifikationen von API-/E2E-Tests in Markdown für ein Feature schreiben
API-/E2E-Tests aus den Markdown-Testbeschreibungen generieren
Coding-Agent-Sitzung mit der Fähigkeit starten, Tests auszuführen
Den Agenten bitten, die Funktionalität zu implementieren, bis die Tests bestehen

Modellfähigkeiten und Kompromisse

Der Entwickler stellt fest, dass leistungsfähigere Modelle wie Claude es ermöglichen, Markdown-Dateien für einfache Websites ganz zu überspringen, während Qwen3.5-27B andere Schwellenwerte hat. Weniger leistungsfähige Modelle erfordern spezifischere Anweisungen, um Fehlermodi zu mindern, einschließlich der Sperrung von Logik durch Anweisungen, bestimmte Dateien nicht zu berühren oder nur bestimmte Wrapper zu verwenden.

Er vermutet, dass Entwickler sich nicht mit Code-Mustern und -Qualität beschäftigen sollten, wenn der Code durch Tests abgedeckt ist und funktioniert, und vergleicht KI-Agenten mit der Verwaltung von 10-100 Junior-/Mittelstufen-Entwicklern zum Preis eines KI-Abonnements.

Spezifika lokaler Modelle

Für lokale Modelle, die auf 2xRTX3090 laufen, verwendet er Qwen3.5-27B-GGUF-Q8_0 mit parallel = 1 und vollem Kontext, da er glaubt, dass dies wichtig ist, damit agentische Sitzungen nicht frühzeitig autokomprimiert werden. Er stellt fest, dass weniger intelligente Modelle eine klarere Artikulation von E2E-Tests und gewünschter Implementierung erzwingen, während Claude Designentscheidungen automatisch ausfüllt, aber zu Kontrollverlust führen kann.

Implementierung des Coding-TDD-Loops

Der Entwickler liefert einen Entwurf seines Coding-TDD-Loops:

outer loop begins: run all pytest tests using command `pytest tests/ -x` and will exit there aren't any failures; the default loglevel will be warning, so not much output there
if everything passes; exit the outer loop; if something failed, extracts failed test name
runs the failed test name with full logs, like `pytest tests/../test_first_failing_test.py --log-level DEBUG` and collects the output of the tests into the file
extracts lines near the 'error'/'fail' strings with `egrep -i -C 10 '(error|fail)' <fail

Dieser Ansatz stellt eine praktische Implementierung von TDD mit KI-Agenten dar, die Automatisierung mit notwendiger Überwachung ausbalanciert, um die Kontrolle über die Codebasis zu behalten.

📖 Read the full source: r/LocalLLaMA