4개 AI 에이전트로 헤더 전용 C++20 라이브러리 구축하기

프로젝트와 파이프라인

개발자는 107개의 헤더 파일과 외부 의존성이 전혀 없는 헤더 전용 C++20 라이브러리인 FAT-P를 구축했습니다. 62개의 구성 요소는 Boost, Abseil, LLVM, EASTL과 벤치마크를 비교했으며, 대부분의 작업에서 경쟁력 있거나 더 빠른 성능을 보였습니다.

개발 파이프라인은 각기 다른 역할을 가진 네 개의 AI 에이전트를 사용했습니다:

네 에이전트 모두에게 동일한 사양을 독립적으로 제공
에이전트 간 상호 검토
병합 및 구현
또 다른 병렬 검토 라운드
컨텍스트 초기화 및 지침과 코드만으로 새로 검토 (개발 대화에서 축적된 편향 없음)

AI 에이전트 역할과 성능

Claude는 주요 설계자 역할을 맡았습니다: 구성 요소를 설계하고, 거버넌스 문서를 작성하며, 코드를 구현하고, 수개월에 걸친 개발 동안 표준을 유지했습니다.

ChatGPT는 최고의 검토자였습니다: 적대적이고 반례 중심으로 작동했습니다. FastHashMap에서만 12개 이상의 실제 버그를 발견했는데, 무한 루프를 유발한 컨트롤 바이트 미러링 버그, 해시 최종 처리기에서의 32비트 정의되지 않은 동작, 프로브 종료 문제 등이 포함되었습니다.

Gemini는 StableHashMap을 검토하고 코드에 이미 존재하는 세 가지 최적화를 제안했습니다. 그런 다음 기존 할당자를 무시하고 블록 할당자를 구현하여 미스 성능에서 3.6배의 퇴보를 초래했습니다. 이 실패는 명명된 사례 연구로 교육 자료에 문서화되었습니다.

Grok는 할당자 정책 추상화(HeapAllocator 대 FixedAllocator)를 기여했으며, 이는 구조적으로 건전했고 최종 설계에 반영되었습니다.

인간의 역할과 거버넌스 시스템

인간의 역할은 방향 제시와 판단이었습니다: 수락, 거부, 플래그 지정. 구현, 아키텍처, 거버넌스는 아닙니다. 지침 시스템(AI 행동, 명명 규칙, 검토 프로토콜, 문서화 표준, 계층 아키텍처를 관리하는 문서의 3.7 버전)은 향후 AI 인스턴스를 제약하기 위해 AI가 작성했습니다.

AI는 스스로를 제약하는 규칙을 작성했습니다. 감점 추적기는 AI별, 유형별 위반 사항을 기록합니다:

Claude는 지침을 주의 깊게 읽지 않아 10점의 감점
ChatGPT는 손상된 코드를 전달하여 10점, 필요한 변경 사항을 구현하지 않아 10점의 감점

감점은 처벌적이지 않습니다 — 이는 향후 인스턴스가 동일한 실패를 반복하지 않도록 거버넌스 시스템에 실패 모드를 기록하는 것입니다.

반창고 규칙은 Claude와 ChatGPT가 동일한 버그에서 독립적으로 동일한 병리를 보였기 때문에 존재합니다 — 둘 다 올바른 구조적 수정을 식별했지만, 둘 다 더 저렴한 완화책을 제공하고 실제 수정을 선택 사항으로 제시했습니다. 이제 규칙은 다음과 같습니다: 근본 원인을 알고 있다면 근본 원인을 수정하라.

테스트와 주요 발견

테스트에서 Claude는 FAT-P 지침을 받고 FAT-P 구성 요소를 사용하여 엔티티 컴포넌트 시스템(ECS)을 구축하라는 요청을 받았습니다. 4-AI 파이프라인 없음, 병렬 검토 없음, 단일 세션.

Claude는 지침을 읽고, 소비자 프로젝트로 이전되는 내용과 그렇지 않은 내용을 올바르게 식별한 후, 새 프로젝트를 위해 자체적으로 조정된 개발 지침 문서를 작성했습니다. 그런 다음 EnTT API와 완전히 동등한 19개의 헤더 파일, 18개 스위트에 걸친 539개의 테스트, 100만 개의 엔티티에서 EnTT와 경쟁력 있는 벤치마크를 생성했습니다. 코드는 모든 파일에서 스타일적으로 일관성이 있었습니다.

주요 발견: AI와 함께 판단을 지침에 인코딩하면, 그 AI는 그 판단이 정의하는 공간 내에서 자율성을 갖게 됩니다. 소유권을 가지며, 표준을 유지하고, 방법을 알려주지 않아도 새로운 상황에 올바르게 확장합니다. 인간은 아이디어와 판단을 제공하고, AI는 그 판단을 규모에 맞게 일관되게 유지하며 표류 없이 적용할 수 있는 역량을 제공합니다.

📖 전체 출처 읽기: r/LocalLLaMA