Codev AI: 14일 106개 PR 처리한 오픈소스 워크플로우

Codev는 구조화된 개발 워크플로우를 적용하는 오픈소스 AI 에이전트 조정 시스템입니다. 이 프로젝트는 14일 동안 106개의 풀 리퀘스트를 처리하며 추출한 구체적인 실천법으로 AI를 프로토타이핑에서 실제 작업으로 전환하는 방법을 보여줍니다.

여섯 가지 핵심 실천법

사양과 계획은 소스 코드입니다: 사양과 계획은 채팅 기록이 아닌 소스 코드와 함께 git에 저장됩니다. 새로운 에이전트는 전체 그림을 위해 arch.md를 읽은 후 특정 사양을 읽습니다. 이렇게 하면 항상 무언가가 왜 만들어졌는지 알 수 있습니다.
세 모델이 모든 단계를 검토합니다: Claude, Gemini, Codex는 거의 완전히 다른 버그를 발견합니다. 단일 모델이 55% 이상의 문제를 찾지 못했습니다. 테스트에서 출시 전 20개의 버그가 발견되었습니다: Claude Code는 5개의 버그를 찾았고, Gemini와 Codex는 Claude가 놓친 심각한 보안 문제를 포함해 15개의 버그를 추가로 발견했습니다.
제안이 아닌 프로세스를 강제합니다: 상태 머신이 Spec → Plan → Implement → Review → PR 순서를 강제합니다. AI는 단계를 건너뛸 수 없으며, 테스트가 통과되어야 다음 단계로 진행할 수 있습니다. AI는 스스로 계획을 따르지 않기 때문에 시스템이 레일을 제공합니다.
편집이 아닌 주석을 달아주세요: 대부분의 작업은 무제한 채팅에서 파일을 수정하는 대신 코드를 안내하는 사양과 리뷰를 작성하는 것을 포함합니다.
에이전트가 에이전트를 조정합니다: 아키텍트 에이전트가 빌더 에이전트를 분리된 git 작업 트리로 생성합니다. 사용자는 아키텍트를 지시하고, 아키텍트는 빌더를 지시합니다. 그들은 비동기적으로 서로 메시지를 보냅니다.
전체 생명주기를 관리합니다: 대부분의 AI 도구는 코드를 더 빠르게 작성하는 데 도움을 줍니다(약 30%의 작업). 나머지 70%는 계획, 검토, 통합, 배포 스크립트, 스테이징과 프로덕션 관리 등을 포함합니다. Codev는 AI가 사양부터 PR 및 그 이상의 전체 파이프라인을 실행하도록 합니다.

결과와 비용

이 시스템은 한 명의 엔지니어가 일반적으로 3-4명의 팀이 수행할 작업을 생산할 수 있게 했습니다. 코드 품질은 Claude Code만 사용하는 것에 비해 10점 만점 기준 1.2점 더 높게 측정되었습니다. 이 접근법은 더 오래 걸리고 더 많은 토큰을 사용하지만, PR당 약 $1.60의 합리적인 비용을 유지합니다.

개발자에 따르면, 프로토콜 강제가 게임 체인저입니다: "AI가 사양이나 계획을 따르지 않는 것을 발견할 것입니다." 에이전트 조정도 효과적이었으며, 아키텍트 에이전트가 여러 빌더 에이전트를 관리하여 동시에 다른 버그를 수정했습니다.

📖 전체 소스 읽기: HN AI Agents

Codev: 14일 동안 106개의 PR을 처리한 AI 에이전트 워크플로우

여섯 가지 핵심 실천법

결과와 비용

👀 See Also

audio-analyzer-rs: Claude를 위한 오디오 분석 MCP 서버

인터랙티브 마인드맵으로 시각화한 Claude 도구 생태계

클로드 디자인 vs 화수 디자인: HTML 레이아웃과 속도 제한 대결

Claude 4.6 Opus 추론 기능이 MLX 양자화를 통해 Apple Silicon용으로 14GB로 경량화되었습니다.