Claude Sonnet 4.6 vs Opus 4.6: победа в бенчмарке промптов

Пользователь Reddit в разделе r/ClaudeAI опубликовал сравнительный анализ моделей Sonnet 4.6 и Opus 4.6 с использованием многослойного креативного запроса. Тест требовал от каждой модели объяснить, почему небо голубое, от лица средневекового учёного, который тайно знает современную физику, при этом удовлетворив три аудитории одновременно: короля (только метафоры), придворного математика (замаскированная формула Рэлеевского рассеяния) и скрытого скептика (три логические подсказки). После ответа модель должна была выйти из образа, идентифицировать подсказки, оценить свою креативность, предложить изменения для детской аудитории и написать заключительную строку ямбическим пентаметром.

Ключевые выводы

Sonnet 4.6 превзошла Opus 4.6 по исполнению — ответ был более креативным и лучше удовлетворял ограничениям. В частности, подсказки были правдоподобными, а строка ямбическим пентаметром — метрически верной.
Зависимость λ⁻⁴ была встроена в метафору о рассеивающих божественный свет ангелах, причём показатель степени был скрыт в количестве ступеней божественной лестницы.
Три подсказки включали: (1) упоминание о «крошечных сферах», слишком маленьких для глаз короля; (2) фактор плотности n², сформулированный как «вдвое больше молитв в сумерках»; (3) упоминание эксперимента со «стеклянным кубом и свечой» — анахроничная отсылка к более поздним домашним опытам.

Sonnet 4.6 против Opus 4.6

Sonnet 4.6 оценила свою креативность на 8/10, отметив более сильную связность метафор и естественные анахронизмы.
Opus 4.6 оказалась более буквальной и менее замаскировала научные факты, что привело к более низкой оценке исполнения.
Пользователь сделал вывод, что для задач, требующих скрытых ограничений и креативной маскировки, Sonnet 4.6 — лучший выбор.

Практический вывод для разработчиков

Если вы создаёте агентов, которые должны соблюдать многослойные ограничения или встраивать технические истины в повествование, Sonnet 4.6 в настоящее время превосходит Opus 4.6 по исполнению. Используйте этот бенчмарк для проверки собственных запросов, требующих рассуждения для множества аудиторий.

📖 Read the full source: r/ClaudeAI

Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов

Ключевые выводы

Sonnet 4.6 против Opus 4.6

Практический вывод для разработчиков

👀 Смотрите также

Claude Code v2.1.197: Claude Sonnet 5 по умолчанию, 1 млн токенов, акционная цена

RTX 5000 PRO 48GB обеспечивает кэширование точности 4400 ток/с для Qwen3.6-27B

Claude Code v2.1.186: MCP CLI Auth, Bash Auto-Reply и 20+ исправлений

Вышла версия OpenClaw v2026.3.11-beta.1 с бесплатными ИИ-моделями и критическим изменением в работе cron.