Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.

Das IDP-Leaderboard, ein offener Benchmark für Dokumenten-KI, hat Ergebnisse veröffentlicht, die Claude-Modelle bei Dokumentenverarbeitungsaufgaben vergleichen. Der Benchmark testete 16 Modelle in mehreren Kategorien mit über 9.000 echten Dokumenten.
Benchmark-Ergebnisse
Die Punktzahlen der Claude-Modelle aus dem IDP-Leaderboard:
- Claude Sonnet 4.6: 80,8 insgesamt
- Claude Opus 4.6: 80,3 insgesamt
- Claude Haiku 4.5: 69,6 insgesamt
Sonnet und Opus schnitten bei Extraktionsaufgaben im Wesentlichen gleich gut ab, einschließlich Text, Tabellen, Formeln und Layoutanalyse. Die Radardiagramme beider Modelle sehen laut den Benchmark-Ergebnissen identisch aus.
Kostenvergleich
Die Quelle weist auf erhebliche Kostenunterschiede hin:
- Sonnet kostet 24 US-Dollar pro 1.000 Seiten
- Opus kostet 40 US-Dollar pro 1.000 Seiten
Für Dokumentenverarbeitungs-Workloads legt der Benchmark nahe, dass es keinen Grund gibt, Opus zu verwenden, angesichts der gleichwertigen Leistung bei niedrigeren Kosten.
Wichtiger Hinweis
Eine bemerkenswerte Erkenntnis: Die Claude-Modelle hatten strengere Inhaltsmoderation, die die Leistung bei bestimmten Dokumententypen beeinflusste. Alte Zeitungsscans, Lehrbuchseiten und historische Dokumente lösten manchmal Inhaltsfilter aus. Dieses Problem trat nur in den OlmOCR- und OmniDoc-Benchmarks auf.
Alle Vorhersagen aus dem Benchmark sind im Results Explorer unter idp-leaderboard.org sichtbar, wo Sie genau sehen können, was jedes Claude-Modell bei jedem Dokument ausgegeben hat.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

STAR-Reasoning-Framework-Genauigkeit sinkt von 100 % auf 0 % bei Produktions-Prompts
Ein Forscher fand heraus, dass das STAR-Argumentationsframework, das Claudes Genauigkeit bei einem impliziten Einschränkungsproblem von 0 % auf 100 % in Isolation erhöhte, auf 0–30 % Genauigkeit sank, wenn es in einem 60-zeiligen Produktionssystem-Prompt verwendet wurde. Das Problem wurde durch widersprüchliche Anweisungen im Produktions-Prompt verursacht, die vorzeitige Antwortverpflichtungen auslösten.

Forbes: Die KI-Entlassungsrechnung wird fällig — CTOs zahlen doppelt
Forbes argumentiert, dass die Kosten von KI-bedingten Entlassungen Unternehmen doppelt treffen werden: zuerst durch Abfindungen und sinkende Moral, dann durch Wiedereinstellungen, wenn die erwarteten Effizienzgewinne ausbleiben.

Warum Anthropics Aktivierungssteuerung Schwierigkeiten hat, gültiges JSON zu erzeugen
Die Aktivierungslenkung, eine Technik zur Sicherheit von KI, kann kein gültiges JSON generieren und erreicht nur 24,4 % Validität im Vergleich zu 86,8 % des unverarbeiteten Basismodells.

Google DeepMind-Mitarbeiter stimmen für Gewerkschaftsgründung aufgrund von KI-Militärgeschäften
Mitarbeiter von Google DeepMind in London haben für eine Gewerkschaftsbildung gestimmt und fordern von Google, KI-Verträge mit den US-amerikanischen und israelischen Streitkräften zu kündigen, da Bedenken hinsichtlich der Streichung ethischer Richtlinien bestehen.