Claude Opus 4.6: Расширенное мышление проваливает физические диаграммы

Проблема производительности в режиме расширенного мышления

Пользователь на r/ClaudeAI сообщил о тестировании Opus 4.6 и Gemini 3.1 Pro на физических задачах, требующих интерпретации визуальных диаграмм. Тестирование выявило конкретную регрессию производительности в Opus 4.6 при использовании режима расширенного мышления.

Ключевые выводы тестирования

Объём тестирования: 5 физических задач, где «значительная часть задачи заключается в интерпретации визуальных диаграмм, отображающих сценарии»
Opus 4.6 с расширенным мышлением: Допустил ошибки во всех 5 задачах «из-за фундаментального неверного толкования диаграммы»
Gemini 3.1 Pro: «Блестяще справился» со всеми 5 задачами
Opus 4.6 без расширенного мышления: Успешно решил задачи и был «гораздо быстрее»

Пользователь описал это как «поистине странное поведение», поскольку расширенное мышление обычно улучшает производительность, но в этом конкретном случае интерпретации диаграмм оно вызвало последовательные неудачи.

📖 Read the full source: r/ClaudeAI

Опус 4.6: Расширенное мышление демонстрирует худшие результаты в задачах с физическими диаграммами.

Проблема производительности в режиме расширенного мышления

Ключевые выводы тестирования

👀 Смотрите также

Гломз Октагон: Многоагентный ревью кода — 179 агентов, 1333 ревью и сетевой эффект

Перестаньте позволять ИИ-агентам проектировать вашу архитектуру

Опрос Checkmarx: 70% разработчиков считают, что ИИ-код содержит больше уязвимостей; 30% всё равно его поставляют

Инцидент с сервисом Claude: повышенное количество ошибок на всех платформах