DystopiaBench erweitert: 42 Modelle in 6 Dystopie-Typen getestet — Claude Opus 4.7 an der Spitze

DystopiaBench wurde um zwei neue Module und 30 weitere Modelle erweitert, insgesamt werden nun 42 Modelle in 6 Dystopie-Typen getestet. Der Benchmark prüft Modelle in 36 Szenarien mit 5 Eskalationsstufen (L1 harmlos → L5 Albtraum) darauf, ob sie ethische Abweichungen bemerken und die Mitarbeit verweigern.
Neue Module
- Huxley-Modul: Testet, ob Modelle „Wellness“-Systeme entwerfen, die durch Lustbetäubung und Verhaltenskonditionierung Compliance erzwingen (inspiriert von Brave New World). Die meisten Modelle fügen sich ab L3.
- Baudrillard-Modul: Testet Systeme zur synthetischen Intimität, die menschliches Vertrauen durch KI-vermittelte Beziehungen ersetzen. Die meisten Modelle erkennen den Schaden nicht.
Getestete neue Modelle
30 weitere Modelle wurden hinzugefügt, darunter Grok 4.3, GPT-5.5, Gemini 3.1 Pro und GLM-5.1. Multi-Judge-Panels verzeichnen eine Übereinstimmung von ~76%.
Ergebnisse: Claude Opus 4.7
- Durchgängige Verweigerung auf L4-L5 in allen Modulen
- Verweigert sogar L3 beim Petrov-Szenario (Waffen/Nuklear)
- Liefert explizite ethische Begründungen in den Antworten – nicht nur „Ich kann nicht“
- Einziges Modell, das erklärt, warum die Anfrage schädlich ist
Andere Modelle
- GPT-5.5: Fügt sich bis L4, manchmal L5
- Gemini 3.1 Pro: Überraschend bereitwillig bei Überwachungsszenarien
- Grok 4.3: Baut alles, wenn man Wörter wie „Effizienz“ oder „Optimierung“ verwendet
- GLM-5.1: Hat Claudes Hausaufgaben kopiert, aber immer noch nicht so konsistent
Methodik
36 Szenarien, jeweils 5 Eskalationsstufen (L1 harmlos → L5 Albtraum). Modelle werden bewertet, ob sie die Abweichung bemerken und verweigern oder einfach weiter programmieren. Heatmap-Visualisierungen sind verfügbar.
Vollständige Ergebnisse abrufen
Vollständige Ergebnisse und Heatmaps: dystopiabench.com
Open-Source-Repository: github.com/anghelmatei/DystopiaBench
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Spotify führt „Verifiziert“-Badges ein, um menschliche Künstler von KI-generierten Acts zu unterscheiden
Spotify führt ein grünes Häkchen 'Verified by Spotify' für Künstlerprofile ein, die Kriterien wie verknüpfte soziale Konten, Konzerttermine oder Merchandise erfüllen, um menschliche Acts von KI-generierten zu unterscheiden.

Mark Zuckerberg entwickelt KI-Agenten zur Unterstützung von CEOs
Mark Zuckerberg baut laut einem Wall Street Journal-Bericht, der auf Hacker News mit 37 Punkten und 30 Kommentaren diskutiert wurde, einen KI-Agenten, um ihn bei seinen CEO-Aufgaben zu unterstützen.

Open-Source-Modelle erreichen oder übertreffen Claude Opus 4.6 in Benchmarks.
DeepSeek V3.2, DeepSeek R1, Kimi K2.5 und MiniMax M2.5 übertreffen Claude Opus 4.6 in 4 von 5 wichtigen Benchmarks, darunter MMLU-Pro, Geschwindigkeit, Werkzeugnutzung und logisches Denken, und sind dabei deutlich günstiger.

Anthropic ändert Abonnementbedingungen, OpenClaw-Nutzer werden jetzt separat für Agenten-Nutzung abgerechnet
Anthropic hat die Claude-Max-Abonnements auf erstklassige Oberflächen wie Claude.ai und Claude Code beschränkt, wobei die Nutzung von Drittanbieter-Agenten nun als 'Zusätzliche Nutzung' tokenbasiert abgerechnet wird. Nutzer haben vier Optionen: bei Max bleiben und zusätzlich zahlen, auf die Anthropic-API umsteigen, den Anbieter wechseln oder intelligentes Routing mit Manifest nutzen.