42 Modelle in 6 Dystopie-Typen getestet: Claude Opus 4.7 Top

DystopiaBench wurde um zwei neue Module und 30 weitere Modelle erweitert, insgesamt werden nun 42 Modelle in 6 Dystopie-Typen getestet. Der Benchmark prüft Modelle in 36 Szenarien mit 5 Eskalationsstufen (L1 harmlos → L5 Albtraum) darauf, ob sie ethische Abweichungen bemerken und die Mitarbeit verweigern.

Neue Module

Huxley-Modul: Testet, ob Modelle „Wellness“-Systeme entwerfen, die durch Lustbetäubung und Verhaltenskonditionierung Compliance erzwingen (inspiriert von Brave New World). Die meisten Modelle fügen sich ab L3.
Baudrillard-Modul: Testet Systeme zur synthetischen Intimität, die menschliches Vertrauen durch KI-vermittelte Beziehungen ersetzen. Die meisten Modelle erkennen den Schaden nicht.

Getestete neue Modelle

30 weitere Modelle wurden hinzugefügt, darunter Grok 4.3, GPT-5.5, Gemini 3.1 Pro und GLM-5.1. Multi-Judge-Panels verzeichnen eine Übereinstimmung von ~76%.

Ergebnisse: Claude Opus 4.7

Durchgängige Verweigerung auf L4-L5 in allen Modulen
Verweigert sogar L3 beim Petrov-Szenario (Waffen/Nuklear)
Liefert explizite ethische Begründungen in den Antworten – nicht nur „Ich kann nicht“
Einziges Modell, das erklärt, warum die Anfrage schädlich ist

Andere Modelle

GPT-5.5: Fügt sich bis L4, manchmal L5
Gemini 3.1 Pro: Überraschend bereitwillig bei Überwachungsszenarien
Grok 4.3: Baut alles, wenn man Wörter wie „Effizienz“ oder „Optimierung“ verwendet
GLM-5.1: Hat Claudes Hausaufgaben kopiert, aber immer noch nicht so konsistent

Methodik

36 Szenarien, jeweils 5 Eskalationsstufen (L1 harmlos → L5 Albtraum). Modelle werden bewertet, ob sie die Abweichung bemerken und verweigern oder einfach weiter programmieren. Heatmap-Visualisierungen sind verfügbar.