Le benchmark IDP Leaderboard montre que Claude Sonnet 4.6 égale Opus 4.6 pour les tâches d'IA documentaire.

Le classement IDP, un benchmark ouvert pour l'IA documentaire, a publié des résultats comparant les modèles Claude sur des tâches de traitement de documents. Le benchmark a testé 16 modèles dans plusieurs catégories en utilisant plus de 9 000 documents réels.
Résultats du benchmark
Les scores des modèles Claude du classement IDP :
- Claude Sonnet 4.6 : 80,8 global
- Claude Opus 4.6 : 80,3 global
- Claude Haiku 4.5 : 69,6 global
Sonnet et Opus ont performé essentiellement de manière équivalente sur les tâches d'extraction incluant le texte, les tableaux, les formules et l'analyse de mise en page. Les graphiques radar des deux modèles sont identiques selon les résultats du benchmark.
Comparaison des coûts
La source note des différences de coût significatives :
- Sonnet coûte 24 $ pour 1 000 pages
- Opus coûte 40 $ pour 1 000 pages
Pour les charges de travail de traitement de documents, le benchmark suggère qu'il n'y a aucune raison d'utiliser Opus étant donné la performance équivalente à un coût inférieur.
Mise en garde importante
Une découverte notable : les modèles Claude avaient une modération de contenu plus stricte qui a affecté la performance sur certains types de documents. Les scans de vieux journaux, les pages de manuels scolaires et les documents historiques ont parfois déclenché des filtres de contenu. Ce problème n'est apparu que dans les benchmarks OlmOCR et OmniDoc.
Toutes les prédictions du benchmark sont visibles dans l'explorateur de résultats à idp-leaderboard.org, où vous pouvez voir exactement ce que chaque modèle Claude a produit sur chaque document.
📖 Read the full source: r/ClaudeAI
👀 See Also

AlphaEvolve : l'agent alimenté par Gemini de DeepMind optimise les algorithmes dans les domaines de la génomique, des réseaux électriques et des circuits TPC
AlphaEvolve, un agent de codage propulsé par Gemini de Google DeepMind, a amélioré les erreurs de détection des variants de DeepConsensus de 30 %, porté la faisabilité du GNN pour le problème AC Optimal Power Flow de 14 % à 88 %, et réduit l'erreur des circuits quantiques d'un facteur 10.

Les startups déclarent dépenser plus en puissance de calcul IA qu'en salaires humains.
Les startups d'IA comme Swan AI déclarent des factures mensuelles de calcul IA dépassant les 113 000 $, leurs PDG décrivant cela comme du 'tokenmaxxing' où les dépenses en IA remplacent les budgets traditionnels d'effectifs.

Le benchmark montre que le modèle 4B plus petit surpasse les grands LLM pour les applications de discussion téléphone-domicile.
Un benchmark de 8 LLM locaux pour les applications de chat téléphone-à-maison a révélé que Gemma3:4B a remporté la première place avec un score de fitness composite de 88,7 malgré sa petite taille, surpassant des modèles plus grands allant jusqu'à 24B paramètres grâce à des temps de réponse plus rapides et une charge thermique plus faible.

Claude restreint l'utilisation de harnais tiers, y compris OpenClaw, à partir du 4 avril.
Anthropic ne permettra plus que les limites d'abonnement à Claude soient utilisées avec des interfaces tierces comme OpenClaw à partir du 4 avril, exigeant une facturation séparée au paiement à l'usage pour une telle utilisation. Les utilisateurs recevront un crédit unique égal au prix de leur abonnement mensuel et pourront pré-acheter des forfaits d'utilisation avec une remise allant jusqu'à 30 %.