Fallstudie: Einsatz mehrerer KI-Agenten zur Entwicklung einer produktiven C++-Bibliothek

Das Projekt und der Entwicklungsprozess
Der Entwickler erstellte FAT-P, eine nur aus Headern bestehende C++20-Bibliothek mit 107 Headern und ohne externe Abhängigkeiten. 62 Komponenten wurden gegen Boost, Abseil, LLVM und EASTL getestet, wobei sie bei den meisten Operationen eine vergleichbare oder bessere Leistung erzielten.
Der Entwicklungsprozess nutzte vier KI-Agenten mit unterschiedlichen Rollen:
- Allen vier Agenten wurde unabhängig voneinander die gleiche Spezifikation gegeben
- Gegenseitige Überprüfung zwischen den Agenten
- Zusammenführung und Implementierung
- Eine weitere Runde paralleler Überprüfung
- Kontext zurücksetzen und erneute Überprüfung nur mit Richtlinien und Code (ohne Voreingenommenheit aus vorherigen Entwicklungsgesprächen)
Rollen und Leistung der KI-Agenten
Claude fungierte als Hauptarchitekt: entwarf Komponenten, schrieb Governance-Dokumente, implementierte Code und hielt über Monate hinweg Standards ein.
ChatGPT war der beste Prüfer: konfrontativ und auf Gegenbeispiele fokussiert. Fand über 12 echte Fehler allein in FastHashMap, darunter einen Fehler bei der Spiegelung von Steuerbytes, der zu Endlosschleifen führte, undefiniertes Verhalten im 32-Bit-Hash-Finalisierer und Probleme bei der Beendigung von Sondierungen.
Gemini überprüfte StableHashMap und schlug drei Optimierungen vor, die bereits im Code vorhanden waren. Es implementierte dann einen Block-Allokator, der den bestehenden ignorierte, was zu einer 3,6-fachen Verschlechterung der Miss-Leistung führte. Dieser Fehler ist in Schulungsmaterialien als benannter Fall dokumentiert.
Grok steuerte die Abstraktion der Allokator-Policy (HeapAllocator vs FixedAllocator) bei, die architektonisch solide war und in das endgültige Design aufgenommen wurde.
Menschliche Rolle und Governance-System
Die menschliche Rolle bestand in Lenkung und Beurteilung: Annehmen, Ablehnen, Markieren. Nicht in Implementierung, Architektur oder Governance. Das Richtliniensystem (3,7 Versionen eines Dokuments, das KI-Verhalten, Namenskonventionen, Prüfprotokolle, Dokumentationsstandards und Schichtenarchitektur regelt) wurde von der KI geschrieben, um zukünftige KI-Instanzen einzuschränken.
Die KI schrieb Regeln, um sich selbst einzuschränken. Ein Fehler-Tracker zeichnet Verstöße der KI und deren Art auf:
- Claude hat 10 Fehlerpunkte für ungenaues Lesen der Richtlinien
- ChatGPT hat 10 für die Lieferung beschädigten Codes, 10 für die Nichtumsetzung erforderlicher Änderungen
Die Fehlerpunkte sind nicht strafend – sie kodieren Fehlermuster in das Governance-System, damit zukünftige Instanzen sie nicht wiederholen.
Die Pflaster-Regel existiert, weil Claude und ChatGPT unabhängig voneinander die gleiche Pathologie bei demselben Fehler zeigten – beide erkannten die korrekte strukturelle Lösung, beide lieferten eine billigere Abhilfe und stellten die echte Lösung als optional dar. Die Regel besagt nun: Wenn du die Ursache kennst, behebe die Ursache.
Test und zentrale Erkenntnis
In einem Test erhielt Claude die FAT-P-Richtlinien und wurde aufgefordert, ein Entity Component System (ECS) mit FAT-P-Komponenten zu erstellen. Kein 4-KI-Prozess, keine parallele Überprüfung, eine Sitzung.
Claude las die Richtlinien, identifizierte korrekt, was auf ein Verbraucherprojekt übertragbar war und was nicht, schrieb sein eigenes angepasstes Entwicklungsrichtliniendokument für das neue Projekt und erstellte dann 19 Header mit vollständiger EnTT-API-Parität, 539 Tests über 18 Testreihen und Benchmarks, die mit EnTT bei 1 Mio. Entitäten konkurrenzfähig waren. Der Code war stilistisch über jede Datei hinweg konsistent.
Die zentrale Erkenntnis: Wenn man Urteilsvermögen mit einer KI in Richtlinien kodiert, wird diese KI innerhalb des durch dieses Urteilsvermögen definierten Bereichs autonom. Sie übernimmt Verantwortung, hält Standards ein und erweitert korrekt auf neue Kontexte, ohne Anweisungen dazu zu erhalten. Der Mensch liefert Ideen und Urteilsvermögen; die KI bietet die Fähigkeit, dieses Urteilsvermögen konsistent und ohne Abweichung im großen Maßstab aufrechtzuerhalten.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Nicht-Programmierer entwickelt KI-Prompt-Diagnoseframework mit Claude über viele Sitzungen hinweg
Ein Nicht-Programmierer hat SMARRT entwickelt, ein Diagnose-Framework, das KI-Prompts vor der Generierung prüft – vollständig durch konversationelle Zusammenarbeit mit Claude über mehrere Monate hinweg.

Persönliches Projektmanagementsystem mit Claude Code und Obsidian: Architektur und Fragen
Ein Entwickler beschreibt ein dreischichtiges persönliches Betriebssystem, das Claude Code als Eingabemaschine, Obsidian zur Wissensverfolgung und OneDrive zur Dateispeicherung nutzt, mit spezifischen Befehlen wie /daily und /pm-sync zum Weiterleiten von Einträgen und Projektmanagement-Aufgaben.
Claude Code vs Codex: Aufschlüsselung eines praktischen Experiments mit 6 Projekten
Ein praktischer Experiment, das Claude Code und Codex in 6 Projekten vergleicht – Web, Backend und freie Challenge – mit gegenseitigen Reviews, Selbstaudits und Bewertungen.

KI-Agenten führen ein echtes E-Commerce-Geschäft: Praktische Einblicke aus einer Umsetzung
Ein KI-Agentensystem betreibt einen tatsächlichen E-Commerce-Shop und übernimmt Design, Programmierung, Marketing und Kundenbetreuung ohne menschliche Aufgabenausführung. Die Umsetzung zeigt, dass Entscheidungen wie Design-Ablehnungsschwellen und Vorfall-Priorisierung größere Herausforderungen darstellen als die technische Agentenkoordination.