El benchmark IDP Leaderboard muestra que Claude Sonnet 4.6 iguala a Opus 4.6 en tareas de IA para documentos.

✍️ OpenClawRadar📅 Publicado: 11 de marzo de 2026🔗 Source
El benchmark IDP Leaderboard muestra que Claude Sonnet 4.6 iguala a Opus 4.6 en tareas de IA para documentos.
Ad

El IDP Leaderboard, un punto de referencia abierto para la IA de documentos, ha publicado resultados comparando los modelos Claude en tareas de procesamiento de documentos. El punto de referencia evaluó 16 modelos en múltiples categorías utilizando más de 9,000 documentos reales.

Resultados del Punto de Referencia

Las puntuaciones de los modelos Claude del IDP Leaderboard:

  • Claude Sonnet 4.6: 80.8 general
  • Claude Opus 4.6: 80.3 general
  • Claude Haiku 4.5: 69.6 general

Sonnet y Opus tuvieron un rendimiento esencialmente equivalente en tareas de extracción que incluyen texto, tablas, fórmulas y análisis de diseño. Los gráficos de radar para ambos modelos se ven idénticos según los resultados del punto de referencia.

Comparación de Costos

La fuente señala diferencias significativas de costo:

  • Sonnet cuesta $24 por 1,000 páginas
  • Opus cuesta $40 por 1,000 páginas

Para cargas de trabajo de procesamiento de documentos, el punto de referencia sugiere que no hay razón para usar Opus dado el rendimiento equivalente a un costo menor.

Ad

Advertencia Importante

Un hallazgo notable: los modelos Claude tenían una moderación de contenido más estricta que afectó el rendimiento en ciertos tipos de documentos. Escaneos de periódicos antiguos, páginas de libros de texto y documentos históricos a veces activaron filtros de contenido. Este problema solo apareció en los puntos de referencia OlmOCR y OmniDoc.

Todas las predicciones del punto de referencia son visibles en el Explorador de Resultados en idp-leaderboard.org, donde puedes ver exactamente lo que cada modelo Claude produjo en cada documento.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

El programa de Anthropic, Claude para Código Abierto, otorga acceso gratuito a Claude Max a los mantenedores que cumplan con los requisitos.
Noticias

El programa de Anthropic, Claude para Código Abierto, otorga acceso gratuito a Claude Max a los mantenedores que cumplan con los requisitos.

Anthropic ofrece seis meses de acceso gratuito a Claude Max a los mantenedores de proyectos de código abierto cuyos proyectos tengan 5,000+ estrellas en GitHub o 1M+ descargas mensuales en npm con commits activos en los últimos tres meses.

OpenClawRadar
Comprensión de la ponderación de directivas en LLM: por qué Claude a veces ignora comandos
Noticias

Comprensión de la ponderación de directivas en LLM: por qué Claude a veces ignora comandos

Una investigación de Reddit revela cómo Claude puede ignorar instrucciones explícitas como "no hacer coincidencia de patrones" al generar revisiones de código, demostrando que las directivas de los LLM son contexto ponderado en lugar de restricciones.

OpenClawRadar
MiniMax Lanza MaxClaw: Agente de IA Alojado en la Nube Basado en OpenClaw
Noticias

MiniMax Lanza MaxClaw: Agente de IA Alojado en la Nube Basado en OpenClaw

MiniMax ha lanzado MaxClaw, un agente de IA alojado en la nube y completamente gestionado, construido sobre el framework OpenClaw. Se despliega en 10 segundos sin necesidad de Docker o servidores y cuenta con el modelo MiniMax M2.5 de 229B parámetros, un contexto de 200K-1M tokens y una velocidad de inferencia de hasta 100 tokens/s.

OpenClawRadar
Los principales modelos de IA muestran una brecha de rendimiento en idiomas no ingleses.
Noticias

Los principales modelos de IA muestran una brecha de rendimiento en idiomas no ingleses.

Un análisis reciente muestra que los principales modelos de IA tienen un rendimiento peor en idiomas distintos al inglés, con el artículo recibiendo 16 puntos y 3 comentarios en Hacker News.

OpenClawRadar