Claude Sonnet 4.6 vs Opus 4.6: IDP 벤치마크 동등 성능

문서 AI를 위한 공개 벤치마크인 IDP 리더보드가 문서 처리 작업에서 Claude 모델들을 비교한 결과를 발표했습니다. 이 벤치마크는 9,000개 이상의 실제 문서를 사용해 여러 범주에서 16개 모델을 테스트했습니다.

벤치마크 결과

IDP 리더보드의 Claude 모델 점수:

Claude Sonnet 4.6: 전체 80.8점
Claude Opus 4.6: 전체 80.3점
Claude Haiku 4.5: 전체 69.6점

Sonnet과 Opus는 텍스트, 표, 수식, 레이아웃 분석을 포함한 추출 작업에서 본질적으로 동등한 성능을 보였습니다. 벤치마크 결과에 따르면 두 모델의 레이더 차트는 동일하게 나타납니다.

비용 비교

출처는 상당한 비용 차이를 언급합니다:

Sonnet: 1,000페이지당 $24
Opus: 1,000페이지당 $40

문서 처리 작업량에 대해 벤치마크는 더 낮은 비용으로 동등한 성능을 보이는 Opus를 사용할 이유가 없다고 제안합니다.

중요한 주의사항

주목할 만한 발견: Claude 모델들은 특정 문서 유형의 성능에 영향을 미치는 엄격한 콘텐츠 조정 기능을 가지고 있었습니다. 오래된 신문 스캔, 교과서 페이지, 역사적 문서는 때때로 콘텐츠 필터를 트리거했습니다. 이 문제는 OlmOCR 및 OmniDoc 벤치마크에서만 나타났습니다.

벤치마크의 모든 예측은 idp-leaderboard.org의 Results Explorer에서 확인할 수 있으며, 각 Claude 모델이 모든 문서에서 정확히 어떤 결과를 출력했는지 볼 수 있습니다.

📖 Read the full source: r/ClaudeAI