Выпущен Claude Opus 4.8: более быстрый и дешевый быстрый режим, динамические рабочие процессы и улучшения честности

Компания Anthropic выпустила Claude Opus 4.8, обновив Opus 4.7 с улучшениями в бенчмарках по программированию, агентским навыкам, рассуждениям и работе со знаниями. Новая версия доступна по той же цене, что и предыдущая модель.
Ключевые особенности
- Контроль усилий на claude.ai — пользователи теперь могут задавать, сколько усилий Claude вкладывает в задачу.
- Динамические рабочие процессы в Claude Code — позволяют модели решать очень масштабные проблемы.
- Быстрый режим работает со скоростью в 2,5 раза выше и теперь в три раза дешевле, чем быстрый режим для предыдущих моделей.
Основные результаты бенчмарков
Согласно заявлению, Claude Opus 4.8 — единственная модель, которая выполнила все кейсы от начала до конца в бенчмарке Super-Agent от Anthropic, превзойдя предыдущие модели Opus и GPT-5.5 при равной стоимости. В Online-Mind2Web (задачи компьютерного использования и браузерных агентов) модель набрала 84% — значительный скачок по сравнению с Opus 4.7 и GPT-5.5. В CursorBench она превосходит предыдущие модели Opus на всех уровнях усилий.
В бенчмарке Legal Agent Benchmark Opus 4.8 стала первой моделью, преодолевшей 10% по общему показателю all-pass. Ранние тестировщики также отметили повышение эффективности вызова инструментов (меньше шагов при той же интеллектуальности), точность цитирования и эффективность токенов в рабочих процессах извлечения.
Обучение честности
В Opus 4.8 внедрены явные улучшения честности — модель обучена избегать необоснованных утверждений и активно указывать на проблемы с входными/выходными данными. Это привело к более качественному анализу и лучшему соотношению сигнал/шум в оценках тестировщиков.
Ценообразование
Opus 4.8 доступен по той же цене, что и Opus 4.7. Цена быстрого режима в 3 раза ниже, чем в предыдущей версии. Стоимость мультимодальных токенов для Genie (агента Databricks) на 61% ниже, чем у Opus 4.7.
📖 Источник: HN AI Agents
👀 Смотрите также

Пользователь Reddit сообщает о 18,8 ток/с при CPU-инференсе модели Qwen 3 30B Q4 на архитектуре Zen 4.
Пользователь на r/LocalLLaMA протестировал Qwen 3 30B Q4 на процессоре и достиг 18,8 токенов в секунду с процессором Zen 4 и памятью DDR5, что значительно превысило ожидания в 3-5 ток/с.

Доказательства использования надстройки Claude для Word обнаружены в API аналитики
Аналитический API Anthropic теперь возвращает метрики для Claude для Word наряду с существующими надстройками для Excel и PowerPoint, что указывает на разработку интеграции с Word. API показывает нулевые показатели использования для Word, что говорит о том, что она ещё не доступна публично.

当向Claude询问正则表达式时,引发了一场深夜潜入编译器设计的探索
Пользователь Reddit попросил Claude объяснить регулярное выражение и в итоге провел 45 минут в разговоре о парсерах, компиляторах и теории языков, усомнившись в своей карьере.

ИИ-кодеры ходят с открытыми ноутбуками, чтобы поддерживать работу агентов
Технари носят ноутбуки в режиме «раскладушка», чтобы ИИ-агенты для кодинга, такие как Claude Code и OpenAI Codex, не останавливались. Советы включают использование команды 'caffeinate' на Mac.