Claude Sonnet 4.6 vs Opus：IDPベンチマーク80.8点で同等性能

ドキュメントAIのオープンベンチマークであるIDPリーダーボードが、ドキュメント処理タスクにおけるClaudeモデルの比較結果を公開しました。このベンチマークでは、9,000以上の実ドキュメントを使用して、複数のカテゴリーで16のモデルをテストしました。

ベンチマーク結果

IDPリーダーボードによるClaudeモデルのスコア：

Claude Sonnet 4.6: 総合80.8
Claude Opus 4.6: 総合80.3
Claude Haiku 4.5: 総合69.6

SonnetとOpusは、テキスト、表、数式、レイアウト分析を含む抽出タスクでほぼ同等の性能を示しました。ベンチマーク結果によると、両モデルのレーダーチャートは同一に見えるとのことです。

コスト比較

ソースでは、以下のような大きなコスト差が指摘されています：

Sonnet: 1,000ページあたり24ドル
Opus: 1,000ページあたり40ドル

ドキュメント処理ワークロードにおいては、同等の性能をより低コストで実現できるため、Opusを使用する理由はないとベンチマークは示唆しています。

重要な注意点

注目すべき発見として、Claudeモデルにはより厳格なコンテンツモデレーションがあり、特定のドキュメントタイプの性能に影響を与えました。古い新聞のスキャン、教科書のページ、歴史的文書などがコンテンツフィルターをトリガーすることがありました。この問題は、OlmOCRとOmniDocのベンチマークでのみ発生しました。

ベンチマークのすべての予測結果は、idp-leaderboard.orgのResults Explorerで確認でき、各Claudeモデルが各ドキュメントに対して出力した内容を正確に確認できます。

📖 Read the full source: r/ClaudeAI