4つのAIエージェントでC++20ライブラリ構築［実践ケース］

プロジェクトとパイプライン

開発者は、107のヘッダーと外部依存ゼロのC++20ヘッダーのみのライブラリ「FAT-P」を構築しました。62のコンポーネントがBoost、Abseil、LLVM、EASTLに対してベンチマークされ、ほとんどの操作で同等または高速なパフォーマンスを示しました。

開発パイプラインでは、異なる役割を持つ4つのAIエージェントを使用しました：

すべての4エージェントに同じ仕様を独立して与える
エージェント間の相互レビュー
マージと実装
別の並列レビューのラウンド
コンテキストのリセットと、ガイドラインとコードのみでの新規レビュー（開発会話からの蓄積されたバイアスなし）

AIエージェントの役割とパフォーマンス

Claudeは主要なアーキテクトとして機能しました：コンポーネントの設計、ガバナンス文書の作成、コードの実装、数か月にわたる開発全体での標準の維持を行いました。

ChatGPTは最高のレビュアーでした：対立的で反例駆動型でした。FastHashMapだけで12以上の実際のバグを発見し、無限ループを引き起こす制御バイトのミラーリングバグ、ハッシュファイナライザーの32ビット未定義動作、プローブ終了の問題などが含まれていました。

GeminiはStableHashMapをレビューし、コードに既に存在する3つの最適化を提案しました。その後、既存のものを無視してブロックアロケーターを実装し、ミス時のパフォーマンスで3.6倍の後退を引き起こしました。この失敗は、名前付きケーススタディとして教材に記録されています。

Grokはアロケーターポリシーの抽象化（HeapAllocator対FixedAllocator）を貢献し、これはアーキテクチャ的に健全で最終設計に採用されました。

人間の役割とガバナンスシステム

人間の役割は方向性と判断でした：承認、拒否、フラグ付け。実装、アーキテクチャ、ガバナンスではありませんでした。ガイドラインシステム（AIの行動、命名規則、レビュープロトコル、ドキュメント標準、レイヤーアーキテクチャを統治する文書の3.7バージョン）は、将来のAIインスタンスを制約するためにAIによって書かれました。

AIは自身を制約するルールを書きました。減点トラッカーはAIによる違反とそのタイプを記録します：

Claudeはガイドラインを注意深く読まなかったことで10減点
ChatGPTは破損したコードを提供したことで10減点、必要な変更を実装しなかったことで10減点

減点は懲罰的ではありません—それらは失敗モードをガバナンスシステムにエンコードし、将来のインスタンスがそれらを繰り返さないようにします。

「バンドエイドルール」が存在するのは、ClaudeとChatGPTが同じバグで独立して同じ病理を示したためです—両方とも正しい構造的修正を特定し、両方ともより安価な緩和策を提供し、実際の修正をオプションとして提示しました。このルールは現在、根本原因がわかっている場合は根本原因を修正する、と定めています。

テストと重要な発見

テストでは、ClaudeにFAT-Pガイドラインを与え、FAT-Pコンポーネントを使用してEntity Component System（ECS）を構築するように依頼しました。4-AIパイプラインなし、並列レビューなし、1セッションのみでした。

Claudeはガイドラインを読み、何がコンシューマープロジェクトに転送され、何が転送されないかを正しく識別し、新しいプロジェクト用に適応した開発ガイドライン文書を自ら書き、その後、完全なEnTT APIパリティを持つ19のヘッダー、18のスイートにわたる539のテスト、100万エンティティでEnTTと競合するベンチマークを生成しました。コードはすべてのファイルで文体的一貫性がありました。

重要な発見：AIと共に判断をガイドラインにエンコードすると、そのAIはその判断が定義する空間内で自律的になります。所有権を取り、標準を維持し、方法を指示されなくても新しいコンテキストに正しく拡張します。人間はアイデアと判断を提供し、AIはその判断をドリフトなく一貫して大規模に保持する能力を提供します。

📖 完全なソースを読む： r/LocalLLaMA