Codev: 106 PRs in 14 Tagen mit KI-Agenten-Workflow

Codev ist ein Open-Source-KI-Agenten-Koordinationssystem, das einen strukturierten Entwicklungs-Workflow durchsetzt. Das Projekt zeigt, wie man KI von der Prototyp-Phase in produktive Arbeit überführt, mit spezifischen Praktiken, die aus der Bearbeitung von 106 Pull-Requests in 14 Tagen extrahiert wurden.

Sechs Kernpraktiken

Specs und Pläne sind Quellcode: Spezifikationen und Pläne leben in Git neben dem Quellcode, nicht im Chat-Verlauf. Ein neuer Agent liest arch.md für das große Ganze, dann seine spezifische Spezifikation. Das stellt sicher, dass man immer weiß, warum etwas gebaut wurde.
Drei Modelle überprüfen jede Phase: Claude, Gemini und Codex finden fast vollständig unterschiedliche Fehler. Kein einzelnes Modell fand mehr als 55% der Probleme. Im Test wurden 20 Fehler vor dem Ausliefern gefangen: Claude Code fand 5 Fehler, während Gemini und Codex weitere 15 fanden, einschließlich eines schwerwiegenden Sicherheitsproblems, das Claude übersah.
Den Prozess durchsetzen, nicht nur vorschlagen: Eine Zustandsmaschine erzwingt Spec → Plan → Implement → Review → PR. Die KI kann keine Schritte überspringen, und Tests müssen bestehen, bevor fortgefahren wird. Das System bietet Leitplanken, weil KI-Agenten sich nicht von selbst an den Plan halten.
Kommentieren, nicht bearbeiten: Die meiste Arbeit besteht darin, Spezifikationen und Reviews zu schreiben, die den Code leiten, anstatt in einem offenen Chat an Dateien herumzuhacken.
Agenten koordinieren Agenten: Ein Architekten-Agent erzeugt Builder-Agenten in isolierten Git-Worktrees. Man steuert den Architekten; er steuert die Builder. Sie kommunizieren asynchron miteinander.
Den gesamten Lebenszyklus verwalten: Die meisten KI-Tools helfen, Code schneller zu schreiben (etwa 30% der Arbeit). Die anderen 70% umfassen Planung, Review, Integration, Deployment-Skripte und die Verwaltung von Staging vs. Produktion. Codev lässt die KI die gesamte Pipeline von der Spezifikation bis zum PR und darüber hinaus ausführen.

Ergebnisse und Kosten

Das System ermöglichte es einem Ingenieur, das zu produzieren, was typischerweise ein Team von 3-4 Personen leistet. Die Codequalität wurde auf einer 10-Punkte-Skala um 1,2 Punkte besser bewertet im Vergleich zur alleinigen Verwendung von Claude Code. Der Ansatz dauert länger und verbraucht mehr Tokens, aber die Kosten bleiben mit etwa 1,60 US-Dollar pro PR angemessen.

Laut dem Entwickler ist die Protokoll-Durchsetzung der entscheidende Faktor: "Ich stellte fest, dass die KI sich einfach nicht an Spezifikationen oder Pläne hielt." Die Agenten-Koordination erwies sich ebenfalls als effektiv, wobei der Architekten-Agent mehrere Builder-Agenten verwaltete, die gleichzeitig verschiedene Fehler beheben.

📖 Read the full source: HN AI Agents

Codev: KI-Agenten-Workflow für 106 PRs in 14 Tagen

Sechs Kernpraktiken

Ergebnisse und Kosten

👀 Siehe auch

OpenClaw Budget Guard Plugin verhindert gleichzeitige Budgetüberschreitungen

Verbesserung der Claude-Code-Sitzungen mit claude-self-improve

Benutzererfahrung: Wechsel von OpenClaw zu Hermes Agent auf lokalem LLM

Claude-Code v2.1.63 fügt HTTP-Hooks, Slash-Befehle hinzu und behebt Speicherlecks