Claude Sonnet 4.6 iguala a Opus 4.6 en benchmark IDP

El IDP Leaderboard, un punto de referencia abierto para la IA de documentos, ha publicado resultados comparando los modelos Claude en tareas de procesamiento de documentos. El punto de referencia evaluó 16 modelos en múltiples categorías utilizando más de 9,000 documentos reales.

Resultados del Punto de Referencia

Las puntuaciones de los modelos Claude del IDP Leaderboard:

Claude Sonnet 4.6: 80.8 general
Claude Opus 4.6: 80.3 general
Claude Haiku 4.5: 69.6 general

Sonnet y Opus tuvieron un rendimiento esencialmente equivalente en tareas de extracción que incluyen texto, tablas, fórmulas y análisis de diseño. Los gráficos de radar para ambos modelos se ven idénticos según los resultados del punto de referencia.

Comparación de Costos

La fuente señala diferencias significativas de costo:

Sonnet cuesta $24 por 1,000 páginas
Opus cuesta $40 por 1,000 páginas

Para cargas de trabajo de procesamiento de documentos, el punto de referencia sugiere que no hay razón para usar Opus dado el rendimiento equivalente a un costo menor.

Advertencia Importante

Un hallazgo notable: los modelos Claude tenían una moderación de contenido más estricta que afectó el rendimiento en ciertos tipos de documentos. Escaneos de periódicos antiguos, páginas de libros de texto y documentos históricos a veces activaron filtros de contenido. Este problema solo apareció en los puntos de referencia OlmOCR y OmniDoc.

Todas las predicciones del punto de referencia son visibles en el Explorador de Resultados en idp-leaderboard.org, donde puedes ver exactamente lo que cada modelo Claude produjo en cada documento.

📖 Read the full source: r/ClaudeAI

El benchmark IDP Leaderboard muestra que Claude Sonnet 4.6 iguala a Opus 4.6 en tareas de IA para documentos.

Resultados del Punto de Referencia

Comparación de Costos

Advertencia Importante

👀 Ver también

El programa de Anthropic, Claude para Código Abierto, otorga acceso gratuito a Claude Max a los mantenedores que cumplan con los requisitos.

Comprensión de la ponderación de directivas en LLM: por qué Claude a veces ignora comandos

MiniMax Lanza MaxClaw: Agente de IA Alojado en la Nube Basado en OpenClaw

Los principales modelos de IA muestran una brecha de rendimiento en idiomas no ingleses.