Claude Sonnet 4.6 набирает 80.8 баллов в IDP, сравниваясь с Opus

Лидерборд IDP, открытый эталонный тест для ИИ-обработки документов, опубликовал результаты сравнения моделей Claude по задачам обработки документов. Тестирование проверило 16 моделей по нескольким категориям, используя более 9000 реальных документов.

Результаты тестирования

Баллы моделей Claude по результатам Лидерборда IDP:

Claude Sonnet 4.6: 80.8 в целом
Claude Opus 4.6: 80.3 в целом
Claude Haiku 4.5: 69.6 в целом

Sonnet и Opus показали практически одинаковые результаты по задачам извлечения, включая текст, таблицы, формулы и анализ структуры. Согласно результатам тестирования, радар-диаграммы обеих моделей выглядят идентично.

Сравнение стоимости

В источнике отмечаются значительные различия в стоимости:

Sonnet стоит $24 за 1000 страниц
Opus стоит $40 за 1000 страниц

Для рабочих нагрузок по обработке документов тестирование предполагает, что нет причин использовать Opus, учитывая эквивалентную производительность при более низкой стоимости.

Важное замечание

Одно примечательное наблюдение: у моделей Claude была более строгая модерация контента, которая повлияла на производительность с определёнными типами документов. Сканы старых газет, страницы учебников и исторические документы иногда активировали фильтры контента. Эта проблема проявлялась только в тестах OlmOCR и OmniDoc.

Все прогнозы из тестирования видны в Results Explorer на сайте idp-leaderboard.org, где можно увидеть, что именно выводила каждая модель Claude на каждом документе.

📖 Прочитать полный источник: r/ClaudeAI

Бенчмарк IDP Leaderboard показывает, что Claude Sonnet 4.6 соответствует уровню Opus 4.6 в задачах по обработке документов с использованием искусственного интеллекта.

Результаты тестирования

Сравнение стоимости

Важное замечание

👀 Смотрите также

AWS Bedrock тихо убивает квоту Claude Opus 4.7: Предупреждение для производственных AI-процессов

Клод Код: Ловушка для обратной связи обходит отказ от конфиденциальности — пользователи сообщают о захвате стенограмм сессий

Lovable предоставляет 24-часовой бесплатный доступ с $350 кредитов для партнеров в честь Международного женского дня.

Claude Code 2.1.132: Многоагентные документы, планирование шлюзов, изменения ограничений навыков