Codev: KI-Agenten-Workflow für 106 PRs in 14 Tagen

Codev ist ein Open-Source-KI-Agenten-Koordinationssystem, das einen strukturierten Entwicklungs-Workflow durchsetzt. Das Projekt zeigt, wie man KI von der Prototyp-Phase in produktive Arbeit überführt, mit spezifischen Praktiken, die aus der Bearbeitung von 106 Pull-Requests in 14 Tagen extrahiert wurden.
Sechs Kernpraktiken
- Specs und Pläne sind Quellcode: Spezifikationen und Pläne leben in Git neben dem Quellcode, nicht im Chat-Verlauf. Ein neuer Agent liest arch.md für das große Ganze, dann seine spezifische Spezifikation. Das stellt sicher, dass man immer weiß, warum etwas gebaut wurde.
- Drei Modelle überprüfen jede Phase: Claude, Gemini und Codex finden fast vollständig unterschiedliche Fehler. Kein einzelnes Modell fand mehr als 55% der Probleme. Im Test wurden 20 Fehler vor dem Ausliefern gefangen: Claude Code fand 5 Fehler, während Gemini und Codex weitere 15 fanden, einschließlich eines schwerwiegenden Sicherheitsproblems, das Claude übersah.
- Den Prozess durchsetzen, nicht nur vorschlagen: Eine Zustandsmaschine erzwingt Spec → Plan → Implement → Review → PR. Die KI kann keine Schritte überspringen, und Tests müssen bestehen, bevor fortgefahren wird. Das System bietet Leitplanken, weil KI-Agenten sich nicht von selbst an den Plan halten.
- Kommentieren, nicht bearbeiten: Die meiste Arbeit besteht darin, Spezifikationen und Reviews zu schreiben, die den Code leiten, anstatt in einem offenen Chat an Dateien herumzuhacken.
- Agenten koordinieren Agenten: Ein Architekten-Agent erzeugt Builder-Agenten in isolierten Git-Worktrees. Man steuert den Architekten; er steuert die Builder. Sie kommunizieren asynchron miteinander.
- Den gesamten Lebenszyklus verwalten: Die meisten KI-Tools helfen, Code schneller zu schreiben (etwa 30% der Arbeit). Die anderen 70% umfassen Planung, Review, Integration, Deployment-Skripte und die Verwaltung von Staging vs. Produktion. Codev lässt die KI die gesamte Pipeline von der Spezifikation bis zum PR und darüber hinaus ausführen.
Ergebnisse und Kosten
Das System ermöglichte es einem Ingenieur, das zu produzieren, was typischerweise ein Team von 3-4 Personen leistet. Die Codequalität wurde auf einer 10-Punkte-Skala um 1,2 Punkte besser bewertet im Vergleich zur alleinigen Verwendung von Claude Code. Der Ansatz dauert länger und verbraucht mehr Tokens, aber die Kosten bleiben mit etwa 1,60 US-Dollar pro PR angemessen.
Laut dem Entwickler ist die Protokoll-Durchsetzung der entscheidende Faktor: "Ich stellte fest, dass die KI sich einfach nicht an Spezifikationen oder Pläne hielt." Die Agenten-Koordination erwies sich ebenfalls als effektiv, wobei der Architekten-Agent mehrere Builder-Agenten verwaltete, die gleichzeitig verschiedene Fehler beheben.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Entwickler baut LibraHQ-App, um Speicherproblem von KI-Agenten zu lösen
Ein Entwickler hat LibraHQ erstellt, eine kostenlose Notizen-App, die als gemeinsame Gedächtnisschicht zwischen Chatbots und Coding-Agents dient. Die App zeichnet wichtige Notizen und Entscheidungen aus Chats auf und speichert sie für zukünftige Sitzungen, um das Problem zu lösen, dass KI-Agents zuvor getroffene Entscheidungen vergessen.

AskAlf: Open-Source Multi-Agent-Orchestrierungsplattform für selbstgehostete KI-Workflows
AskAlf ist eine Open-Source-Multi-Agenten-Orchestrierungsplattform, die auf Ihrer eigenen Hardware läuft und dynamisch spezialisierte Worker erstellt, die über ein autonomes System mit einem 10-schichtigen kognitiven Gedächtnis, gespeichert in pgvector, koordiniert werden.

Open-Source-MCP-Suite verbessert die Code-Generierungsqualität von Claude um 15-20 %.
Ein Open-Source-MCP-Suite bestehend aus drei lokalen Servern und einer Prompt-Fähigkeit adressiert das 'Bad Token'-Problem bei der KI-Codegenerierung, wobei ein Kunde über eine 15-20%ige Qualitätsverbesserung bei Claude Code berichtet.

Kontext-Gateway: Ein Open-Source-Proxy zur Komprimierung von KI-Agenten-Kontext
Context Gateway ist ein Open-Source-Proxy, der zwischen Coding-Agenten und LLMs sitzt und Tool-Ausgaben komprimiert, bevor sie in das Kontextfenster gelangen. Es verwendet kleine Sprachmodelle, um Signale im Kontext zu erkennen, führt Hintergrundkomprimierung bei 85% Fensterkapazität durch und beinhaltet Ausgabenobergrenzen, ein Dashboard und Slack-Benachrichtigungen.