Claude Sonnet 4.6 vs Opus: IDP-Benchmark zeigt Gleichstand

Das IDP-Leaderboard, ein offener Benchmark für Dokumenten-KI, hat Ergebnisse veröffentlicht, die Claude-Modelle bei Dokumentenverarbeitungsaufgaben vergleichen. Der Benchmark testete 16 Modelle in mehreren Kategorien mit über 9.000 echten Dokumenten.

Benchmark-Ergebnisse

Die Punktzahlen der Claude-Modelle aus dem IDP-Leaderboard:

Claude Sonnet 4.6: 80,8 insgesamt
Claude Opus 4.6: 80,3 insgesamt
Claude Haiku 4.5: 69,6 insgesamt

Sonnet und Opus schnitten bei Extraktionsaufgaben im Wesentlichen gleich gut ab, einschließlich Text, Tabellen, Formeln und Layoutanalyse. Die Radardiagramme beider Modelle sehen laut den Benchmark-Ergebnissen identisch aus.

Kostenvergleich

Die Quelle weist auf erhebliche Kostenunterschiede hin:

Sonnet kostet 24 US-Dollar pro 1.000 Seiten
Opus kostet 40 US-Dollar pro 1.000 Seiten

Für Dokumentenverarbeitungs-Workloads legt der Benchmark nahe, dass es keinen Grund gibt, Opus zu verwenden, angesichts der gleichwertigen Leistung bei niedrigeren Kosten.

Wichtiger Hinweis

Eine bemerkenswerte Erkenntnis: Die Claude-Modelle hatten strengere Inhaltsmoderation, die die Leistung bei bestimmten Dokumententypen beeinflusste. Alte Zeitungsscans, Lehrbuchseiten und historische Dokumente lösten manchmal Inhaltsfilter aus. Dieses Problem trat nur in den OlmOCR- und OmniDoc-Benchmarks auf.

Alle Vorhersagen aus dem Benchmark sind im Results Explorer unter idp-leaderboard.org sichtbar, wo Sie genau sehen können, was jedes Claude-Modell bei jedem Dokument ausgegeben hat.

📖 Read the full source: r/ClaudeAI

Der IDP-Leaderboard-Benchmark zeigt, dass Claude Sonnet 4.6 bei Dokumenten-KI-Aufgaben mit Opus 4.6 gleichzieht.

Benchmark-Ergebnisse

Kostenvergleich

Wichtiger Hinweis

👀 Siehe auch

STAR-Reasoning-Framework-Genauigkeit sinkt von 100 % auf 0 % bei Produktions-Prompts

Forbes: Die KI-Entlassungsrechnung wird fällig — CTOs zahlen doppelt

Warum Anthropics Aktivierungssteuerung Schwierigkeiten hat, gültiges JSON zu erzeugen

Google DeepMind-Mitarbeiter stimmen für Gewerkschaftsgründung aufgrund von KI-Militärgeschäften