O benchmark IDP Leaderboard mostra que o Claude Sonnet 4.6 iguala o Opus 4.6 em tarefas de IA para documentos.

O IDP Leaderboard, um benchmark aberto para IA de documentos, publicou resultados comparando os modelos Claude em tarefas de processamento de documentos. O benchmark testou 16 modelos em várias categorias usando mais de 9.000 documentos reais.
Resultados do Benchmark
As pontuações dos modelos Claude no IDP Leaderboard:
- Claude Sonnet 4.6: 80,8 no geral
- Claude Opus 4.6: 80,3 no geral
- Claude Haiku 4.5: 69,6 no geral
Sonnet e Opus tiveram desempenho essencialmente equivalente em tarefas de extração, incluindo texto, tabelas, fórmulas e análise de layout. Os gráficos de radar de ambos os modelos são idênticos de acordo com os resultados do benchmark.
Comparação de Custos
A fonte observa diferenças significativas de custo:
- Sonnet custa US$ 24 por 1.000 páginas
- Opus custa US$ 40 por 1.000 páginas
Para cargas de trabalho de processamento de documentos, o benchmark sugere que não há motivo para usar o Opus, considerando o desempenho equivalente a um custo menor.
Advertência Importante
Uma descoberta notável: os modelos Claude tinham moderação de conteúdo mais rigorosa, o que afetou o desempenho em certos tipos de documentos. Digitalizações de jornais antigos, páginas de livros didáticos e documentos históricos às vezes acionaram filtros de conteúdo. Esse problema só apareceu nos benchmarks OlmOCR e OmniDoc.
Todas as previsões do benchmark estão visíveis no Results Explorer em idp-leaderboard.org, onde você pode ver exatamente o que cada modelo Claude produziu em cada documento.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

A OpenClaw Capacita Desenvolvedores com Agentes de IA Enquanto a GethCity Inova com Redes de Pensamento
A OpenClaw lança um serviço de agente de IA, tornando a programação mais rápida e eficiente, enquanto a GethCity apresenta uma rede que imita os processos de pensamento humano. Descubra as inovações que impulsionam a automação.

Projeto de Agente de IA do Obsidian de Desenvolvedor Viraliza da Noite para o Dia
Um pesquisador de doutorado criou uma equipe de agentes de IA para gerenciar seu vault do Obsidian, compartilhou no GitHub e acordou com mais de 700 estrelas em menos de 13 horas. A atenção repentina causou pânico, levando o repositório a ficar privado temporariamente antes de ser reaberto com melhorias.

Claude Code 2.1.63 adiciona comandos de barra agrupados, ganchos HTTP e correções de vazamentos de memória.
A Anthropic lançou o Claude Code 2.1.63 com 26 alterações na CLI, incluindo novos comandos de barra /simplify e /batch, ganchos HTTP que enviam JSON POST para URLs e correções para múltiplos vazamentos de memória em sessões de longa duração.

A Anthropic Abandona Compromisso-Chave de Segurança de sua Política de Escalabilidade Responsável
A Anthropic removeu o compromisso central de sua Política de Escalonamento Responsável que exigia garantir medidas de segurança adequadas antes de treinar sistemas de IA, citando pressão competitiva e a necessidade de continuar o desenvolvimento.