Claude Sonnet 4.6 превосходит Opus 4.6 по выполнению в бенчмарке промптов

Пользователь Reddit в разделе r/ClaudeAI опубликовал сравнительный анализ моделей Sonnet 4.6 и Opus 4.6 с использованием многослойного креативного запроса. Тест требовал от каждой модели объяснить, почему небо голубое, от лица средневекового учёного, который тайно знает современную физику, при этом удовлетворив три аудитории одновременно: короля (только метафоры), придворного математика (замаскированная формула Рэлеевского рассеяния) и скрытого скептика (три логические подсказки). После ответа модель должна была выйти из образа, идентифицировать подсказки, оценить свою креативность, предложить изменения для детской аудитории и написать заключительную строку ямбическим пентаметром.
Ключевые выводы
- Sonnet 4.6 превзошла Opus 4.6 по исполнению — ответ был более креативным и лучше удовлетворял ограничениям. В частности, подсказки были правдоподобными, а строка ямбическим пентаметром — метрически верной.
- Зависимость
λ⁻⁴была встроена в метафору о рассеивающих божественный свет ангелах, причём показатель степени был скрыт в количестве ступеней божественной лестницы. - Три подсказки включали: (1) упоминание о «крошечных сферах», слишком маленьких для глаз короля; (2) фактор плотности
n², сформулированный как «вдвое больше молитв в сумерках»; (3) упоминание эксперимента со «стеклянным кубом и свечой» — анахроничная отсылка к более поздним домашним опытам.
Sonnet 4.6 против Opus 4.6
- Sonnet 4.6 оценила свою креативность на 8/10, отметив более сильную связность метафор и естественные анахронизмы.
- Opus 4.6 оказалась более буквальной и менее замаскировала научные факты, что привело к более низкой оценке исполнения.
- Пользователь сделал вывод, что для задач, требующих скрытых ограничений и креативной маскировки, Sonnet 4.6 — лучший выбор.
Практический вывод для разработчиков
Если вы создаёте агентов, которые должны соблюдать многослойные ограничения или встраивать технические истины в повествование, Sonnet 4.6 в настоящее время превосходит Opus 4.6 по исполнению. Используйте этот бенчмарк для проверки собственных запросов, требующих рассуждения для множества аудиторий.
📖 Read the full source: r/ClaudeAI
👀 Смотрите также

Минимакс действительно устарел? Взгляд на текущие дебаты.
В мире ИИ и автоматизации технологий обсуждение на Reddit поднимает вопросы о целесообразности алгоритма Минимакс. Является ли он действительно устаревшим или всё ещё имеет ценность в современных приложениях ИИ?

GitHub отключает возможность Copilot вставлять рекламу в pull-запросы после негативной реакции разработчиков.
GitHub отключил функцию Copilot, которая позволяла вставлять рекламные 'советы' в pull requests после того, как разработчики обнаружили, что она добавляет рекламу таких инструментов, как Raycast. Функция, позволявшая Copilot редактировать PR, которые он не создавал, когда его упоминали, была отключена после обратной связи сообщества.

Agora-1: Многопользовательская модель мира с открытым исходным кодом для симуляции в реальном времени
Odyssey выпускает Agora-1 — мировую модель, которая позволяет до четырём агентам (человек или ИИ) совместно использовать симуляцию в реальном времени, используя GoldenEye в качестве тестовой среды.

Вышла версия OpenClaw v2026.3.11-beta.1 с бесплатными ИИ-моделями и критическим изменением в работе cron.
OpenClaw v2026.3.11-beta.1 представляет две бесплатные AI-модели на OpenRouter с контекстными окнами в 1 млн токенов, исправляет вызовы инструментов кодирования Kimi, добавляет поддержку провайдера OpenCode и включает критическое изменение для уведомлений cron-задач.