ケーススタディ:複数のAIエージェントを使用した本番用C++ライブラリの構築

✍️ OpenClawRadar📅 公開日: February 24, 2026🔗 Source
ケーススタディ:複数のAIエージェントを使用した本番用C++ライブラリの構築
Ad

プロジェクトとパイプライン

開発者は、107のヘッダーと外部依存ゼロのC++20ヘッダーのみのライブラリ「FAT-P」を構築しました。62のコンポーネントがBoost、Abseil、LLVM、EASTLに対してベンチマークされ、ほとんどの操作で同等または高速なパフォーマンスを示しました。

開発パイプラインでは、異なる役割を持つ4つのAIエージェントを使用しました:

  • すべての4エージェントに同じ仕様を独立して与える
  • エージェント間の相互レビュー
  • マージと実装
  • 別の並列レビューのラウンド
  • コンテキストのリセットと、ガイドラインとコードのみでの新規レビュー(開発会話からの蓄積されたバイアスなし)

AIエージェントの役割とパフォーマンス

Claudeは主要なアーキテクトとして機能しました:コンポーネントの設計、ガバナンス文書の作成、コードの実装、数か月にわたる開発全体での標準の維持を行いました。

ChatGPTは最高のレビュアーでした:対立的で反例駆動型でした。FastHashMapだけで12以上の実際のバグを発見し、無限ループを引き起こす制御バイトのミラーリングバグ、ハッシュファイナライザーの32ビット未定義動作、プローブ終了の問題などが含まれていました。

GeminiはStableHashMapをレビューし、コードに既に存在する3つの最適化を提案しました。その後、既存のものを無視してブロックアロケーターを実装し、ミス時のパフォーマンスで3.6倍の後退を引き起こしました。この失敗は、名前付きケーススタディとして教材に記録されています。

Grokはアロケーターポリシーの抽象化(HeapAllocator対FixedAllocator)を貢献し、これはアーキテクチャ的に健全で最終設計に採用されました。

Ad

人間の役割とガバナンスシステム

人間の役割は方向性と判断でした:承認、拒否、フラグ付け。実装、アーキテクチャ、ガバナンスではありませんでした。ガイドラインシステム(AIの行動、命名規則、レビュープロトコル、ドキュメント標準、レイヤーアーキテクチャを統治する文書の3.7バージョン)は、将来のAIインスタンスを制約するためにAIによって書かれました。

AIは自身を制約するルールを書きました。減点トラッカーはAIによる違反とそのタイプを記録します:

  • Claudeはガイドラインを注意深く読まなかったことで10減点
  • ChatGPTは破損したコードを提供したことで10減点、必要な変更を実装しなかったことで10減点

減点は懲罰的ではありません—それらは失敗モードをガバナンスシステムにエンコードし、将来のインスタンスがそれらを繰り返さないようにします。

「バンドエイドルール」が存在するのは、ClaudeとChatGPTが同じバグで独立して同じ病理を示したためです—両方とも正しい構造的修正を特定し、両方ともより安価な緩和策を提供し、実際の修正をオプションとして提示しました。このルールは現在、根本原因がわかっている場合は根本原因を修正する、と定めています。

テストと重要な発見

テストでは、ClaudeにFAT-Pガイドラインを与え、FAT-Pコンポーネントを使用してEntity Component System(ECS)を構築するように依頼しました。4-AIパイプラインなし、並列レビューなし、1セッションのみでした。

Claudeはガイドラインを読み、何がコンシューマープロジェクトに転送され、何が転送されないかを正しく識別し、新しいプロジェクト用に適応した開発ガイドライン文書を自ら書き、その後、完全なEnTT APIパリティを持つ19のヘッダー、18のスイートにわたる539のテスト、100万エンティティでEnTTと競合するベンチマークを生成しました。コードはすべてのファイルで文体的一貫性がありました。

重要な発見:AIと共に判断をガイドラインにエンコードすると、そのAIはその判断が定義する空間内で自律的になります。所有権を取り、標準を維持し、方法を指示されなくても新しいコンテキストに正しく拡張します。人間はアイデアと判断を提供し、AIはその判断をドリフトなく一貫して大規模に保持する能力を提供します。

📖 完全なソースを読む: r/LocalLLaMA

Ad

👀 See Also

Claude Sonnet 4.6 のグレードに関する、4つのQwen3.5ローカルモデルからのバグレポート
Use Cases

Claude Sonnet 4.6 のグレードに関する、4つのQwen3.5ローカルモデルからのバグレポート

開発者が4つのQwen3.5バリアントをテストし、iOSゲームの不具合に対するバグレポートを生成させ、Claude Sonnet 4.6にレポートを採点させました。モデルは装備枠の色がリセットされないSwiftのバグを正しく特定しましたが、テストコードにはコンパイルの問題がありました。

OpenClawRadar
Claude CoworkによるAIレイオフトラッカーの構築:実装の詳細
Use Cases

Claude CoworkによるAIレイオフトラッカーの構築:実装の詳細

開発者が、2026年にAIを理由とした人員削減を発表した企業をスクレイピングして表示するライブでインタラクティブなレイオフトラッカーを構築しました。Claude Coworkを使用してテーブル構造を生成し、フィルターロジックをデバッグし、モバイルアクセシビリティを最適化しました。

OpenClawRadar
開発者が非技術系ユーザーのための簡素化されたAIエージェントホスティングを構築
Use Cases

開発者が非技術系ユーザーのための簡素化されたAIエージェントホスティングを構築

開発者が、非技術系ユーザーを標準的なセットアップでオンボーディングするのに苦労した後、簡素化されたAIエージェントホスティングソリューションを構築した経験を共有しました。

OpenClawRadar
Claude Codeとha-mcpを使用したHome Assistantの自動化
Use Cases

Claude Codeとha-mcpを使用したHome Assistantの自動化

開発者が報告したところによると、Claude Codeをha-mcpツールでHome Assistantに接続し、詳細なプロンプトを通じて迅速なダッシュボード作成と太陽光充電システムのセットアップを可能にしました。

OpenClawRadar