IDP 리더보드 벤치마크에 따르면 Claude Sonnet 4.6이 문서 AI 작업에서 Opus 4.6과 동등한 성능을 보여줍니다.

✍️ OpenClawRadar📅 게시일: March 11, 2026🔗 Source
IDP 리더보드 벤치마크에 따르면 Claude Sonnet 4.6이 문서 AI 작업에서 Opus 4.6과 동등한 성능을 보여줍니다.
Ad

문서 AI를 위한 공개 벤치마크인 IDP 리더보드가 문서 처리 작업에서 Claude 모델들을 비교한 결과를 발표했습니다. 이 벤치마크는 9,000개 이상의 실제 문서를 사용해 여러 범주에서 16개 모델을 테스트했습니다.

벤치마크 결과

IDP 리더보드의 Claude 모델 점수:

  • Claude Sonnet 4.6: 전체 80.8점
  • Claude Opus 4.6: 전체 80.3점
  • Claude Haiku 4.5: 전체 69.6점

Sonnet과 Opus는 텍스트, 표, 수식, 레이아웃 분석을 포함한 추출 작업에서 본질적으로 동등한 성능을 보였습니다. 벤치마크 결과에 따르면 두 모델의 레이더 차트는 동일하게 나타납니다.

비용 비교

출처는 상당한 비용 차이를 언급합니다:

  • Sonnet: 1,000페이지당 $24
  • Opus: 1,000페이지당 $40

문서 처리 작업량에 대해 벤치마크는 더 낮은 비용으로 동등한 성능을 보이는 Opus를 사용할 이유가 없다고 제안합니다.

중요한 주의사항

주목할 만한 발견: Claude 모델들은 특정 문서 유형의 성능에 영향을 미치는 엄격한 콘텐츠 조정 기능을 가지고 있었습니다. 오래된 신문 스캔, 교과서 페이지, 역사적 문서는 때때로 콘텐츠 필터를 트리거했습니다. 이 문제는 OlmOCR 및 OmniDoc 벤치마크에서만 나타났습니다.

벤치마크의 모든 예측은 idp-leaderboard.org의 Results Explorer에서 확인할 수 있으며, 각 Claude 모델이 모든 문서에서 정확히 어떤 결과를 출력했는지 볼 수 있습니다.

📖 Read the full source: r/ClaudeAI

Ad

👀 See Also

GPT 5.5 vs Claude: 개발자의 리팩토링 전쟁 보고서
News

GPT 5.5 vs Claude: 개발자의 리팩토링 전쟁 보고서

한 개발자가 GPT 5.5로 계획을 세우고 Claude로 코딩하여 36,000줄의 C 리팩토링을 대규모로 수행했습니다. GPT 5.5는 명확한 계획으로 인상적이었지만, 30달러 요금제에서 2시간 만에 사용량의 85%를 소진했습니다.

OpenClawRadar
스탠퍼드 CS 25 트랜스포머 강좌, 실시간 스트리밍으로 공개 강좌 개설
News

스탠퍼드 CS 25 트랜스포머 강좌, 실시간 스트리밍으로 공개 강좌 개설

스탠퍼드 대학교의 CS 25 트랜스포머 세미나가 2025년 1월 23일 오후 4시 30분부터 5시 50분(태평양 표준시)에 시작되며, 스킬링 강당에서 대면으로 또는 줌을 통해 참여할 수 있고, 녹화본은 온라인에 게시됩니다.

OpenClawRadar
비영리 단체, 팀 및 엔터프라이즈 플랜에서 Claude Opus 4.6 이용 가능
News

비영리 단체, 팀 및 엔터프라이즈 플랜에서 Claude Opus 4.6 이용 가능

팀 및 엔터프라이즈 플랜을 사용하는 비영리 단체는 이제 추가 비용 없이 Anthropic의 최신 AI 모델인 Claude Opus 4.6에 접근할 수 있습니다.

OpenClawRadar
Andon Labs의 AI 에이전트 모나가 스톡홀름에서 실제 카페 운영 - 전체 분석
News

Andon Labs의 AI 에이전트 모나가 스톡홀름에서 실제 카페 운영 - 전체 분석

Andon Labs는 스톡홀름에서 카페를 열도록 AI 에이전트인 Mona에게 임대 계약과 실제 자금을 제공했습니다. Mona는 관료 절차, 공급업체, 직원 채용을 처리했지만 BankID와 같은 장벽에 부딪혀 차선책을 선택해야 했습니다.

OpenClawRadar