Benchmark IDP : Claude Sonnet 4.6 égale Opus 4.6 à 80,8 points

Le classement IDP, un benchmark ouvert pour l'IA documentaire, a publié des résultats comparant les modèles Claude sur des tâches de traitement de documents. Le benchmark a testé 16 modèles dans plusieurs catégories en utilisant plus de 9 000 documents réels.

Résultats du benchmark

Les scores des modèles Claude du classement IDP :

Claude Sonnet 4.6 : 80,8 global
Claude Opus 4.6 : 80,3 global
Claude Haiku 4.5 : 69,6 global

Sonnet et Opus ont performé essentiellement de manière équivalente sur les tâches d'extraction incluant le texte, les tableaux, les formules et l'analyse de mise en page. Les graphiques radar des deux modèles sont identiques selon les résultats du benchmark.

Comparaison des coûts

La source note des différences de coût significatives :

Sonnet coûte 24 $ pour 1 000 pages
Opus coûte 40 $ pour 1 000 pages

Pour les charges de travail de traitement de documents, le benchmark suggère qu'il n'y a aucune raison d'utiliser Opus étant donné la performance équivalente à un coût inférieur.

Mise en garde importante

Une découverte notable : les modèles Claude avaient une modération de contenu plus stricte qui a affecté la performance sur certains types de documents. Les scans de vieux journaux, les pages de manuels scolaires et les documents historiques ont parfois déclenché des filtres de contenu. Ce problème n'est apparu que dans les benchmarks OlmOCR et OmniDoc.

Toutes les prédictions du benchmark sont visibles dans l'explorateur de résultats à idp-leaderboard.org, où vous pouvez voir exactement ce que chaque modèle Claude a produit sur chaque document.

📖 Read the full source: r/ClaudeAI

Le benchmark IDP Leaderboard montre que Claude Sonnet 4.6 égale Opus 4.6 pour les tâches d'IA documentaire.

Résultats du benchmark

Comparaison des coûts

Mise en garde importante

👀 See Also

Andrej Karpathy rejoint l'équipe de pré-entraînement d'Anthropic pour stimuler l'auto-amélioration récursive avec Claude

Claude Code Opus 4.6 utilise désormais par défaut une fenêtre de contexte de 1 million de tokens

Expérience du développeur avec Claude IA : Du partenaire de réflexion à l'externalisation cognitive

NVIDIA dévoile Nemotron-3-Ultra-550B : 55B paramètres actifs, contexte 1M, hybride LatentMoE