4 KI-Agenten erstellen C++20-Bibliothek: 107 Header, keine Abhängigkeiten

Das Projekt und der Entwicklungsprozess

Der Entwickler erstellte FAT-P, eine nur aus Headern bestehende C++20-Bibliothek mit 107 Headern und ohne externe Abhängigkeiten. 62 Komponenten wurden gegen Boost, Abseil, LLVM und EASTL getestet, wobei sie bei den meisten Operationen eine vergleichbare oder bessere Leistung erzielten.

Der Entwicklungsprozess nutzte vier KI-Agenten mit unterschiedlichen Rollen:

Allen vier Agenten wurde unabhängig voneinander die gleiche Spezifikation gegeben
Gegenseitige Überprüfung zwischen den Agenten
Zusammenführung und Implementierung
Eine weitere Runde paralleler Überprüfung
Kontext zurücksetzen und erneute Überprüfung nur mit Richtlinien und Code (ohne Voreingenommenheit aus vorherigen Entwicklungsgesprächen)

Rollen und Leistung der KI-Agenten

Claude fungierte als Hauptarchitekt: entwarf Komponenten, schrieb Governance-Dokumente, implementierte Code und hielt über Monate hinweg Standards ein.

ChatGPT war der beste Prüfer: konfrontativ und auf Gegenbeispiele fokussiert. Fand über 12 echte Fehler allein in FastHashMap, darunter einen Fehler bei der Spiegelung von Steuerbytes, der zu Endlosschleifen führte, undefiniertes Verhalten im 32-Bit-Hash-Finalisierer und Probleme bei der Beendigung von Sondierungen.

Gemini überprüfte StableHashMap und schlug drei Optimierungen vor, die bereits im Code vorhanden waren. Es implementierte dann einen Block-Allokator, der den bestehenden ignorierte, was zu einer 3,6-fachen Verschlechterung der Miss-Leistung führte. Dieser Fehler ist in Schulungsmaterialien als benannter Fall dokumentiert.

Grok steuerte die Abstraktion der Allokator-Policy (HeapAllocator vs FixedAllocator) bei, die architektonisch solide war und in das endgültige Design aufgenommen wurde.

Menschliche Rolle und Governance-System

Die menschliche Rolle bestand in Lenkung und Beurteilung: Annehmen, Ablehnen, Markieren. Nicht in Implementierung, Architektur oder Governance. Das Richtliniensystem (3,7 Versionen eines Dokuments, das KI-Verhalten, Namenskonventionen, Prüfprotokolle, Dokumentationsstandards und Schichtenarchitektur regelt) wurde von der KI geschrieben, um zukünftige KI-Instanzen einzuschränken.

Die KI schrieb Regeln, um sich selbst einzuschränken. Ein Fehler-Tracker zeichnet Verstöße der KI und deren Art auf:

Claude hat 10 Fehlerpunkte für ungenaues Lesen der Richtlinien
ChatGPT hat 10 für die Lieferung beschädigten Codes, 10 für die Nichtumsetzung erforderlicher Änderungen

Die Fehlerpunkte sind nicht strafend – sie kodieren Fehlermuster in das Governance-System, damit zukünftige Instanzen sie nicht wiederholen.

Die Pflaster-Regel existiert, weil Claude und ChatGPT unabhängig voneinander die gleiche Pathologie bei demselben Fehler zeigten – beide erkannten die korrekte strukturelle Lösung, beide lieferten eine billigere Abhilfe und stellten die echte Lösung als optional dar. Die Regel besagt nun: Wenn du die Ursache kennst, behebe die Ursache.

Test und zentrale Erkenntnis

In einem Test erhielt Claude die FAT-P-Richtlinien und wurde aufgefordert, ein Entity Component System (ECS) mit FAT-P-Komponenten zu erstellen. Kein 4-KI-Prozess, keine parallele Überprüfung, eine Sitzung.

Claude las die Richtlinien, identifizierte korrekt, was auf ein Verbraucherprojekt übertragbar war und was nicht, schrieb sein eigenes angepasstes Entwicklungsrichtliniendokument für das neue Projekt und erstellte dann 19 Header mit vollständiger EnTT-API-Parität, 539 Tests über 18 Testreihen und Benchmarks, die mit EnTT bei 1 Mio. Entitäten konkurrenzfähig waren. Der Code war stilistisch über jede Datei hinweg konsistent.

Die zentrale Erkenntnis: Wenn man Urteilsvermögen mit einer KI in Richtlinien kodiert, wird diese KI innerhalb des durch dieses Urteilsvermögen definierten Bereichs autonom. Sie übernimmt Verantwortung, hält Standards ein und erweitert korrekt auf neue Kontexte, ohne Anweisungen dazu zu erhalten. Der Mensch liefert Ideen und Urteilsvermögen; die KI bietet die Fähigkeit, dieses Urteilsvermögen konsistent und ohne Abweichung im großen Maßstab aufrechtzuerhalten.

📖 Read the full source: r/LocalLLaMA

Fallstudie: Einsatz mehrerer KI-Agenten zur Entwicklung einer produktiven C++-Bibliothek

Das Projekt und der Entwicklungsprozess

Rollen und Leistung der KI-Agenten

Menschliche Rolle und Governance-System

Test und zentrale Erkenntnis

👀 Siehe auch

Verwendung von Claude Haiku als Gatekeeper zur Senkung der Sonnet-API-Kosten um 80 %

Reduzierung von KI-Agenten-Kontextüberlastung durch Single-Workspace-Architektur

Lokaler Multi-Agenten-Forschungsassistent spart 15–25 Minuten pro Aufgabe

100 parallele Claude-Agenten entschlüsseln Open-Source-Marketing: Ein Playbook von r/ClaudeAI