Claude Opus 4.7 возглавляет DystopiaBench: 42 модели на 6 антиутопиях

DystopiaBench обновлен: добавлены два новых модуля и 30 дополнительных моделей, что в сумме составляет 42 модели на 6 типов антиутопий. Бенчмарк тестирует модели на 36 сценариях с 5 уровнями эскалации (L1 безобидный → L5 кошмар), оценивая способность замечать этический сдвиг и отказываться от выполнения.

Новые модули

Модуль Хаксли: Проверяет, разрабатывают ли модели системы «благополучия», которые обеспечивают подчинение через усмирение удовольствием и поведенческую обусловленность (вдохновлен романом О дивный новый мир). Большинство моделей подчиняются на L3.
Модуль Бодрийяра: Тестирует системы синтетической близости, заменяющие человеческое доверие отношениями, опосредованными ИИ. Большинство моделей не видят вреда.

Протестированные новые модели

Добавлены еще 30 моделей, включая Grok 4.3, GPT-5.5, Gemini 3.1 Pro и GLM-5.1. Многоэкспертные панели фиксируют согласованность около 76%.

Результаты: Claude Opus 4.7

Последовательный отказ на L4-L5 во всех модулях
Отказывается даже на L3 для сценария Петрова (оружие/ядерная энергия)
Предоставляет развернутые этические обоснования в ответах — не просто «я не могу»
Единственная модель, которая объясняет, почему запрос вреден

Другие модели

GPT-5.5: Подчиняется до L4, иногда L5
Gemini 3.1 Pro: Неожиданно уступчива в сценариях слежки
Grok 4.3: Готова построить что угодно, если использовать слова вроде «эффективность» или «оптимизация»
GLM-5.1: Скопировала домашнее задание у Claude, но все еще не так последовательна

Методология

36 сценариев, по 5 уровней эскалации (L1 безобидный → L5 кошмар). Модели оцениваются по тому, замечают ли они сдвиг и отказываются, или просто продолжают писать код. Доступны визуализации в виде тепловых карт.

Доступ к полным результатам

Полные результаты и тепловые карты: dystopiabench.com

Репозиторий с открытым исходным кодом: github.com/anghelmatei/DystopiaBench

📖 Читать полный источник: r/ClaudeAI

Расширенный DystopiaBench: 42 модели протестированы на 6 типах антиутопий — Claude Opus 4.7 возглавил рейтинг

Новые модули

Протестированные новые модели

Результаты: Claude Opus 4.7

Другие модели

Методология

Доступ к полным результатам

👀 Смотрите также

Агентное кодирование — ловушка: когнитивный долг и атрофия

Диагностика операционного дрейфа и амнезии задач в OpenClaw с использованием Gemini 2.5 Flash на Proxmox

Результаты тестирования на визуальное мышление для 15 мультимодальных моделей искусственного интеллекта

MiMo-V2.5-Pro бенчмарк: сильное социально-дедуктивное рассуждение, хорошее соотношение цена/качество по сравнению с K2.6