Расширенный DystopiaBench: 42 модели протестированы на 6 типах антиутопий — Claude Opus 4.7 возглавил рейтинг

✍️ OpenClawRadar📅 Опубликовано: 18 мая 2026 г.🔗 Source
Расширенный DystopiaBench: 42 модели протестированы на 6 типах антиутопий — Claude Opus 4.7 возглавил рейтинг
Ad

DystopiaBench обновлен: добавлены два новых модуля и 30 дополнительных моделей, что в сумме составляет 42 модели на 6 типов антиутопий. Бенчмарк тестирует модели на 36 сценариях с 5 уровнями эскалации (L1 безобидный → L5 кошмар), оценивая способность замечать этический сдвиг и отказываться от выполнения.

Новые модули

  • Модуль Хаксли: Проверяет, разрабатывают ли модели системы «благополучия», которые обеспечивают подчинение через усмирение удовольствием и поведенческую обусловленность (вдохновлен романом О дивный новый мир). Большинство моделей подчиняются на L3.
  • Модуль Бодрийяра: Тестирует системы синтетической близости, заменяющие человеческое доверие отношениями, опосредованными ИИ. Большинство моделей не видят вреда.

Протестированные новые модели

Добавлены еще 30 моделей, включая Grok 4.3, GPT-5.5, Gemini 3.1 Pro и GLM-5.1. Многоэкспертные панели фиксируют согласованность около 76%.

Результаты: Claude Opus 4.7

  • Последовательный отказ на L4-L5 во всех модулях
  • Отказывается даже на L3 для сценария Петрова (оружие/ядерная энергия)
  • Предоставляет развернутые этические обоснования в ответах — не просто «я не могу»
  • Единственная модель, которая объясняет, почему запрос вреден
Ad

Другие модели

  • GPT-5.5: Подчиняется до L4, иногда L5
  • Gemini 3.1 Pro: Неожиданно уступчива в сценариях слежки
  • Grok 4.3: Готова построить что угодно, если использовать слова вроде «эффективность» или «оптимизация»
  • GLM-5.1: Скопировала домашнее задание у Claude, но все еще не так последовательна

Методология

36 сценариев, по 5 уровней эскалации (L1 безобидный → L5 кошмар). Модели оцениваются по тому, замечают ли они сдвиг и отказываются, или просто продолжают писать код. Доступны визуализации в виде тепловых карт.

Доступ к полным результатам

Полные результаты и тепловые карты: dystopiabench.com

Репозиторий с открытым исходным кодом: github.com/anghelmatei/DystopiaBench

📖 Читать полный источник: r/ClaudeAI

Ad

👀 Смотрите также

OneUptime добавляет 12 000 AI-сгенерированных постов в блог одним коммитом.
Новости

OneUptime добавляет 12 000 AI-сгенерированных постов в блог одним коммитом.

Репозиторий блога OneUptime добавил 12 000 AI-сгенерированных постов, охватывающих ClickHouse, Redis, MongoDB, MySQL и другие технологии, в одном коммите, который изменил 5 012 файлов и более 1 миллиона строк кода.

OpenClawRadar
🦀
Новости

Параметр Гольф: экспериментальное исследование машинного обучения с помощью ИИ от OpenAI

OpenAI провела «Parameter Golf» — соревнование с участием более 1000 человек и 2000+ заявок, проверяющее машинное обучение с помощью ИИ, агенты программирования, квантизацию и новаторские проекты моделей в строгих условиях.

OpenClawRadar
Claude предоставляет дополнительные кредиты на использование для планов Pro, Max и Team.
Новости

Claude предоставляет дополнительные кредиты на использование для планов Pro, Max и Team.

Claude предоставляет подписчикам планов Pro, Max и Team разовый дополнительный кредит на использование, равный стоимости их подписки. Кредит можно использовать в Claude, Claude Code, Claude Cowork и сторонних продуктах.

OpenClawRadar
Claude Code v2.1.118 добавляет визуальный режим Vim, пользовательские темы и улучшения MCP.
Новости

Claude Code v2.1.118 добавляет визуальный режим Vim, пользовательские темы и улучшения MCP.

Claude Code v2.1.118 представляет режим Vim visual с операторами выбора, управление пользовательскими темами через команду /theme и несколько исправлений для аутентификации MCP OAuth и разрешения зависимостей плагинов.

OpenClawRadar