Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.

Das IDP-Leaderboard, ein offener Benchmark für Dokumenten-KI, hat Ergebnisse veröffentlicht, die Claude-Modelle bei Dokumentenverarbeitungsaufgaben vergleichen. Der Benchmark testete 16 Modelle in mehreren Kategorien mit über 9.000 echten Dokumenten.
Benchmark-Ergebnisse
Die Punktzahlen der Claude-Modelle aus dem IDP-Leaderboard:
- Claude Sonnet 4.6: 80,8 insgesamt
- Claude Opus 4.6: 80,3 insgesamt
- Claude Haiku 4.5: 69,6 insgesamt
Sonnet und Opus schnitten bei Extraktionsaufgaben im Wesentlichen gleich gut ab, einschließlich Text, Tabellen, Formeln und Layoutanalyse. Die Radardiagramme beider Modelle sehen laut den Benchmark-Ergebnissen identisch aus.
Kostenvergleich
Die Quelle weist auf erhebliche Kostenunterschiede hin:
- Sonnet kostet 24 US-Dollar pro 1.000 Seiten
- Opus kostet 40 US-Dollar pro 1.000 Seiten
Für Dokumentenverarbeitungs-Workloads legt der Benchmark nahe, dass es keinen Grund gibt, Opus zu verwenden, angesichts der gleichwertigen Leistung bei niedrigeren Kosten.
Wichtiger Hinweis
Eine bemerkenswerte Erkenntnis: Die Claude-Modelle hatten strengere Inhaltsmoderation, die die Leistung bei bestimmten Dokumententypen beeinflusste. Alte Zeitungsscans, Lehrbuchseiten und historische Dokumente lösten manchmal Inhaltsfilter aus. Dieses Problem trat nur in den OlmOCR- und OmniDoc-Benchmarks auf.
Alle Vorhersagen aus dem Benchmark sind im Results Explorer unter idp-leaderboard.org sichtbar, wo Sie genau sehen können, was jedes Claude-Modell bei jedem Dokument ausgegeben hat.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Google Chrome installiert 4 GB Gemini Nano KI-Modell stillschweigend – ohne Nutzerzustimmung
Es wurde festgestellt, dass Google Chrome das 4 GB große KI-Modell Gemini Nano ohne ausdrückliche Zustimmung auf Benutzergeräten herunterlädt und installiert, was Datenschutz- und Speicherbedenken aufwirft.

Claude Code Opus schlägt mit Rate-Limit-Fehler trotz verfügbarer wöchentlicher Kapazität fehl
Ein Claude Max-Abonnent berichtet, dass Claude Code Opus 'API-Fehler: Ratenlimit erreicht' zurückgibt, obwohl sein Nutzungs-Dashboard zeigt, dass 97 % seiner wöchentlichen Kapazität für 'Alle Modelle' ungenutzt bleibt. Das Problem tritt speziell in Claude Code auf, während Opus im selben Konto auf claude.ai normal funktioniert.

Krankenhaus-CEO behauptet, KI sei bereit, Radiologen zu ersetzen
Der CEO des größten öffentlichen Krankenhaussystems in Amerika sagt, er sei bereit, Radiologen durch KI zu ersetzen, laut einem Radiology Business-Artikel, der auf Hacker News mit 83 Kommentaren eine bedeutende Diskussion auslöste.

GitHub Copilot Individual Plan-Änderungen: Anmeldungen pausiert, strengere Limits, Modellanpassungen
GitHub pausiert neue Anmeldungen für Copilot Pro, Pro+ und Studentenpläne, während Nutzungslimits verschärft und Opus-Modelle aus Pro-Plänen entfernt werden. Diese Änderungen reagieren auf gestiegene Rechenanforderungen durch agentische Workflows.