Claude Opus 4.8: быстрый режим, динамические процессы, честность

Компания Anthropic выпустила Claude Opus 4.8, обновив Opus 4.7 с улучшениями в бенчмарках по программированию, агентским навыкам, рассуждениям и работе со знаниями. Новая версия доступна по той же цене, что и предыдущая модель.

Ключевые особенности

Контроль усилий на claude.ai — пользователи теперь могут задавать, сколько усилий Claude вкладывает в задачу.
Динамические рабочие процессы в Claude Code — позволяют модели решать очень масштабные проблемы.
Быстрый режим работает со скоростью в 2,5 раза выше и теперь в три раза дешевле, чем быстрый режим для предыдущих моделей.

Основные результаты бенчмарков

Согласно заявлению, Claude Opus 4.8 — единственная модель, которая выполнила все кейсы от начала до конца в бенчмарке Super-Agent от Anthropic, превзойдя предыдущие модели Opus и GPT-5.5 при равной стоимости. В Online-Mind2Web (задачи компьютерного использования и браузерных агентов) модель набрала 84% — значительный скачок по сравнению с Opus 4.7 и GPT-5.5. В CursorBench она превосходит предыдущие модели Opus на всех уровнях усилий.

В бенчмарке Legal Agent Benchmark Opus 4.8 стала первой моделью, преодолевшей 10% по общему показателю all-pass. Ранние тестировщики также отметили повышение эффективности вызова инструментов (меньше шагов при той же интеллектуальности), точность цитирования и эффективность токенов в рабочих процессах извлечения.

Обучение честности

В Opus 4.8 внедрены явные улучшения честности — модель обучена избегать необоснованных утверждений и активно указывать на проблемы с входными/выходными данными. Это привело к более качественному анализу и лучшему соотношению сигнал/шум в оценках тестировщиков.

Ценообразование

Opus 4.8 доступен по той же цене, что и Opus 4.7. Цена быстрого режима в 3 раза ниже, чем в предыдущей версии. Стоимость мультимодальных токенов для Genie (агента Databricks) на 61% ниже, чем у Opus 4.7.

📖 Источник: HN AI Agents

Выпущен Claude Opus 4.8: более быстрый и дешевый быстрый режим, динамические рабочие процессы и улучшения честности

Ключевые особенности

Основные результаты бенчмарков

Обучение честности

Ценообразование

👀 Смотрите также

Почему юристы продолжают ссылаться на дела, выдуманные ИИ: взгляд разработчика

inclusionAI发布Ling-2.6-1T：混合架构万亿参数模型，具备稀疏注意力与快速推理能力

Token Efficiency как акт отказа: Почему AI-компании хотят, чтобы вы были расточительны

Ошибка в биллинге API Anthropic: модель Sonnet тарифицируется по ставкам Opus