IDPリーダーボードのベンチマークによると、Claude Sonnet 4.6は文書AIタスクにおいてOpus 4.6と同等の性能を示しています

ドキュメントAIのオープンベンチマークであるIDPリーダーボードが、ドキュメント処理タスクにおけるClaudeモデルの比較結果を公開しました。このベンチマークでは、9,000以上の実ドキュメントを使用して、複数のカテゴリーで16のモデルをテストしました。
ベンチマーク結果
IDPリーダーボードによるClaudeモデルのスコア:
- Claude Sonnet 4.6: 総合80.8
- Claude Opus 4.6: 総合80.3
- Claude Haiku 4.5: 総合69.6
SonnetとOpusは、テキスト、表、数式、レイアウト分析を含む抽出タスクでほぼ同等の性能を示しました。ベンチマーク結果によると、両モデルのレーダーチャートは同一に見えるとのことです。
コスト比較
ソースでは、以下のような大きなコスト差が指摘されています:
- Sonnet: 1,000ページあたり24ドル
- Opus: 1,000ページあたり40ドル
ドキュメント処理ワークロードにおいては、同等の性能をより低コストで実現できるため、Opusを使用する理由はないとベンチマークは示唆しています。
重要な注意点
注目すべき発見として、Claudeモデルにはより厳格なコンテンツモデレーションがあり、特定のドキュメントタイプの性能に影響を与えました。古い新聞のスキャン、教科書のページ、歴史的文書などがコンテンツフィルターをトリガーすることがありました。この問題は、OlmOCRとOmniDocのベンチマークでのみ発生しました。
ベンチマークのすべての予測結果は、idp-leaderboard.orgのResults Explorerで確認でき、各Claudeモデルが各ドキュメントに対して出力した内容を正確に確認できます。
📖 Read the full source: r/ClaudeAI
👀 See Also

スタートアップ、AIコンピューティングに人件費以上の支出を報告
Swan AIのようなAIスタートアップは、月額11万3000ドルを超えるAIコンピュート料金を報告しており、CEOたちはこれをAI支出が従来の人件費予算に取って代わる「トークンマキシング」と表現しています。

AnthropicがClaudeのフィードバックにGoogleフォームを活用
Claudeの開発元Anthropicは、カスタムツールを構築する代わりに2008年のGoogleフォームを使ってデザインフィードバックを収集しており、これは構築 vs. 購入の実用的な哲学を浮き彫りにしている。

Claude.ai 現在ダウン中、APIエラー増加 — 2026年4月28日
Claudeの公式ステータスページからトリガーされた自動ステータス更新により、2026-04-28T17:51:36.000Z時点でClaude.aiが利用不可、APIでエラー率が上昇していることが報告されています。

Claude Opus 4.6 メモリ障害:エージェントがファイル名変更以外すべてを忘れる
開発者がClaude Opus 4.6の228件のログエントリ、95件のエージェントアクション、38件のコード実行を記録。結果としてメモリに保存されたのは「Agent Zero Tune-Up」という文字列のみだった。