멀티모델 코드 리뷰 워크플로우: OpenClaw, GPT-5.5, DeepSeek V4 Pro

한 개발자가 여러 AI 모델을 조율하는 코드 리뷰 워크플로우를 재사용 가능한 스킬/런북으로 패키징하여 GitHub에 공개했습니다. 이 접근 방식은 하나의 오케스트레이터 에이전트가 여러 독립적인 리뷰어 에이전트/모델을 조정한 후, 결과를 종합하여 최종 리뷰를 생성합니다. 핵심 통찰: 서로 다른 모델이 서로 다른 버그를 발견하며, 여러 모델이 독립적으로 동일한 문제를 지적할 때 신뢰도가 높아집니다. 오케스트레이터는 중복을 제거하고, 약한 발견을 필터링하며, 명백한 오탐지를 확인한 후 하나의 깔끔한 결과를 게시합니다.

두 가지 모드

워크플로우는 두 가지 모드를 지원합니다:

PR 리뷰: 로컬에 base/, head/, PR_DIFF.patch, PR_METADATA.json을 준비하고, 여러 분석 전용 리뷰어를 실행한 후 오케스트레이터가 하나의 요약과 인라인 PR 댓글을 게시합니다. GitHub의 보류 중인 리뷰 충돌을 방지하도록 설계되었습니다.
비PR 범위 리뷰: 폴더/모듈/배포/스크립트 영역을 리뷰합니다. 리뷰어는 공유 로컬 스냅샷을 검사하고, 오케스트레이터는 통합된 REVIEW.md를 저장소에 게시합니다.

테스트된 모델 설정

테스트 설정에서는 GPT-5.5를 오케스트레이터로 사용하고, GPT-5.5, DeepSeek V4 Pro, Kimi K2.6, Qwen 3.6 Plus, GLM-5.1을 리뷰어로 사용했습니다. 그러나 이 워크플로우는 에이전트/모델에 구애받지 않습니다. OpenClaw에서 테스트되었으며 뛰어난 결과를 제공하는 것으로 알려져 있습니다.

주요 교훈

공유 스냅샷: 각 서브 에이전트가 독립적으로 리포지토리를 클론/페치하지 않도록 합니다. 오케스트레이터가 공유 스냅샷을 준비하고 리뷰어에게 로컬 경로를 전달해야 합니다. 더 빠르고, 저렴하며, 이상한 오탐지가 줄어듭니다.
GPT 외의 모든 모델은 Fireworks를 통해 실행되었습니다. 대규모 작업의 경우 저자는 Kimi와 Qwen을 다른 모델로 교체할 것을 제안합니다. 이 두 모델은 때때로 중단되기 때문입니다.

리포지토리는 github.com/rmichelena/multireview에 있습니다. 저자는 특히 멀티 에이전트 코드 리뷰 워크플로우를 실행하는 분들의 피드백을 구합니다.

📖 전체 출처 읽기: r/openclaw