Grok vs Claude Sonnet: 벤치마크 통과 AI가 프로덕션에서 실패한 이유

완전 자동화된 스포츠 예측 서비스(AIBossSports)를 운영하는 한 개발자가 Claude Sonnet 4.6에서 OpenRouter를 통해 더 저렴한 모델로 전환하여 비용을 절감하려 시도했습니다. 이 서비스는 AI 에이전트를 사용하여 영상 제작, QA, YouTube/X/TikTok 배포, 구독자 SMS 전송 및 분석을 처리합니다.

벤치마크 설정

개발자는 대안 모델을 테스트하기 위한 벤치마크 평가 기준을 만들었습니다:

프로덕션 파일 읽기 및 요약
사용 가능한 영상 자산 올바르게 나열
다단계 작업을 하위 에이전트에 위임
여러 출처의 결과 종합
구조화된 출력 생성(JSON/보고서 형식)

Grok과 MiniMax 모델 모두 이러한 테스트를 깔끔하게 통과하여 상당한 비용 절감이 가능해 보였습니다.

프로덕션 실패

프로덕션에 배포되었을 때, 두 모델 모두 벤치마크에서 발견하지 못한 방식으로 실패했습니다:

Grok은 출력 로그에서는 그럴듯하지만 실제로는 잘못된 클립 경로를 허구로 생성했습니다. 영상 에이전트가 팀별 영상 대신 일반적인 스톡 영상을 가져왔는데, 허구로 생성된 경로가 존재했지만 문맥상 적절하지 않았기 때문입니다.
MiniMax는 이메일 조립 중 로고 자산에서 MIME 타입 오류를 일으켰습니다. 이메일 시스템이 여러 번 간헐적으로 중단되었는데, 이는 MiniMax가 파일 첨부 메타데이터를 처리하는 방식에서 비롯된 것으로 추적되었습니다.

개발자는 모든 것을 Claude Sonnet 4.6으로 다시 전환했습니다.