Бенчмарк IDP Leaderboard показывает, что Claude Sonnet 4.6 соответствует уровню Opus 4.6 в задачах по обработке документов с использованием искусственного интеллекта.

Лидерборд IDP, открытый эталонный тест для ИИ-обработки документов, опубликовал результаты сравнения моделей Claude по задачам обработки документов. Тестирование проверило 16 моделей по нескольким категориям, используя более 9000 реальных документов.
Результаты тестирования
Баллы моделей Claude по результатам Лидерборда IDP:
- Claude Sonnet 4.6: 80.8 в целом
- Claude Opus 4.6: 80.3 в целом
- Claude Haiku 4.5: 69.6 в целом
Sonnet и Opus показали практически одинаковые результаты по задачам извлечения, включая текст, таблицы, формулы и анализ структуры. Согласно результатам тестирования, радар-диаграммы обеих моделей выглядят идентично.
Сравнение стоимости
В источнике отмечаются значительные различия в стоимости:
- Sonnet стоит $24 за 1000 страниц
- Opus стоит $40 за 1000 страниц
Для рабочих нагрузок по обработке документов тестирование предполагает, что нет причин использовать Opus, учитывая эквивалентную производительность при более низкой стоимости.
Важное замечание
Одно примечательное наблюдение: у моделей Claude была более строгая модерация контента, которая повлияла на производительность с определёнными типами документов. Сканы старых газет, страницы учебников и исторические документы иногда активировали фильтры контента. Эта проблема проявлялась только в тестах OlmOCR и OmniDoc.
Все прогнозы из тестирования видны в Results Explorer на сайте idp-leaderboard.org, где можно увидеть, что именно выводила каждая модель Claude на каждом документе.
📖 Прочитать полный источник: r/ClaudeAI
👀 Смотрите также

AWS Bedrock тихо убивает квоту Claude Opus 4.7: Предупреждение для производственных AI-процессов
Пользователь HN сообщает, что AWS Bedrock установил квоту на Claude Opus 4.7 на уровне 0 без предупреждения. AWS поддержка подтвердила, что это было обновление системы, и не может гарантировать восстановление. Пользователям рекомендуется перейти на Opus 4.6 или сменить провайдера.

Клод Код: Ловушка для обратной связи обходит отказ от конфиденциальности — пользователи сообщают о захвате стенограмм сессий
Claude Code от Anthropic теперь запрашивает разрешение на просмотр расшифровки сессии — нажатие 'n' для отказа выводит 'Спасибо за ваш отзыв', и данные могут использоваться для обучения. Поведение клавиши пропуска неясно.

Lovable предоставляет 24-часовой бесплатный доступ с $350 кредитов для партнеров в честь Международного женского дня.
Lovable предлагает бесплатный доступ к платформе на 24 часа, плюс $100 в токенах Claude API от Anthropic и $250 в кредитах на комиссии Stripe. Предложение действует до 9 марта, 00:59.

Claude Code 2.1.132: Многоагентные документы, планирование шлюзов, изменения ограничений навыков
Релиз v2.1.132 добавляет документацию по Managed Agents для мультиагентных сессий, результатов и вебхуков; вводит шлюз по умолчанию для проактивных предложений /schedule; снижает задокументированный лимит навыков с 64 до 20 на агента.