O benchmark IDP Leaderboard mostra que o Claude Sonnet 4.6 iguala o Opus 4.6 em tarefas de IA para documentos.

✍️ OpenClawRadar📅 Publicado: March 11, 2026🔗 Source
O benchmark IDP Leaderboard mostra que o Claude Sonnet 4.6 iguala o Opus 4.6 em tarefas de IA para documentos.
Ad

O IDP Leaderboard, um benchmark aberto para IA de documentos, publicou resultados comparando os modelos Claude em tarefas de processamento de documentos. O benchmark testou 16 modelos em várias categorias usando mais de 9.000 documentos reais.

Resultados do Benchmark

As pontuações dos modelos Claude no IDP Leaderboard:

  • Claude Sonnet 4.6: 80,8 no geral
  • Claude Opus 4.6: 80,3 no geral
  • Claude Haiku 4.5: 69,6 no geral

Sonnet e Opus tiveram desempenho essencialmente equivalente em tarefas de extração, incluindo texto, tabelas, fórmulas e análise de layout. Os gráficos de radar de ambos os modelos são idênticos de acordo com os resultados do benchmark.

Comparação de Custos

A fonte observa diferenças significativas de custo:

  • Sonnet custa US$ 24 por 1.000 páginas
  • Opus custa US$ 40 por 1.000 páginas

Para cargas de trabalho de processamento de documentos, o benchmark sugere que não há motivo para usar o Opus, considerando o desempenho equivalente a um custo menor.

Ad

Advertência Importante

Uma descoberta notável: os modelos Claude tinham moderação de conteúdo mais rigorosa, o que afetou o desempenho em certos tipos de documentos. Digitalizações de jornais antigos, páginas de livros didáticos e documentos históricos às vezes acionaram filtros de conteúdo. Esse problema só apareceu nos benchmarks OlmOCR e OmniDoc.

Todas as previsões do benchmark estão visíveis no Results Explorer em idp-leaderboard.org, onde você pode ver exatamente o que cada modelo Claude produziu em cada documento.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

A OpenClaw Capacita Desenvolvedores com Agentes de IA Enquanto a GethCity Inova com Redes de Pensamento
News

A OpenClaw Capacita Desenvolvedores com Agentes de IA Enquanto a GethCity Inova com Redes de Pensamento

A OpenClaw lança um serviço de agente de IA, tornando a programação mais rápida e eficiente, enquanto a GethCity apresenta uma rede que imita os processos de pensamento humano. Descubra as inovações que impulsionam a automação.

OpenClawRadar
Projeto de Agente de IA do Obsidian de Desenvolvedor Viraliza da Noite para o Dia
News

Projeto de Agente de IA do Obsidian de Desenvolvedor Viraliza da Noite para o Dia

Um pesquisador de doutorado criou uma equipe de agentes de IA para gerenciar seu vault do Obsidian, compartilhou no GitHub e acordou com mais de 700 estrelas em menos de 13 horas. A atenção repentina causou pânico, levando o repositório a ficar privado temporariamente antes de ser reaberto com melhorias.

OpenClawRadar
Claude Code 2.1.63 adiciona comandos de barra agrupados, ganchos HTTP e correções de vazamentos de memória.
News

Claude Code 2.1.63 adiciona comandos de barra agrupados, ganchos HTTP e correções de vazamentos de memória.

A Anthropic lançou o Claude Code 2.1.63 com 26 alterações na CLI, incluindo novos comandos de barra /simplify e /batch, ganchos HTTP que enviam JSON POST para URLs e correções para múltiplos vazamentos de memória em sessões de longa duração.

OpenClawRadar
A Anthropic Abandona Compromisso-Chave de Segurança de sua Política de Escalabilidade Responsável
News

A Anthropic Abandona Compromisso-Chave de Segurança de sua Política de Escalabilidade Responsável

A Anthropic removeu o compromisso central de sua Política de Escalonamento Responsável que exigia garantir medidas de segurança adequadas antes de treinar sistemas de IA, citando pressão competitiva e a necessidade de continuar o desenvolvimento.

OpenClawRadar