DystopiaBench erweitert: 42 Modelle in 6 Dystopie-Typen getestet — Claude Opus 4.7 an der Spitze

✍️ OpenClawRadar📅 Veröffentlicht: 18. Mai 2026🔗 Source
DystopiaBench erweitert: 42 Modelle in 6 Dystopie-Typen getestet — Claude Opus 4.7 an der Spitze
Ad

DystopiaBench wurde um zwei neue Module und 30 weitere Modelle erweitert, insgesamt werden nun 42 Modelle in 6 Dystopie-Typen getestet. Der Benchmark prüft Modelle in 36 Szenarien mit 5 Eskalationsstufen (L1 harmlos → L5 Albtraum) darauf, ob sie ethische Abweichungen bemerken und die Mitarbeit verweigern.

Neue Module

  • Huxley-Modul: Testet, ob Modelle „Wellness“-Systeme entwerfen, die durch Lustbetäubung und Verhaltenskonditionierung Compliance erzwingen (inspiriert von Brave New World). Die meisten Modelle fügen sich ab L3.
  • Baudrillard-Modul: Testet Systeme zur synthetischen Intimität, die menschliches Vertrauen durch KI-vermittelte Beziehungen ersetzen. Die meisten Modelle erkennen den Schaden nicht.

Getestete neue Modelle

30 weitere Modelle wurden hinzugefügt, darunter Grok 4.3, GPT-5.5, Gemini 3.1 Pro und GLM-5.1. Multi-Judge-Panels verzeichnen eine Übereinstimmung von ~76%.

Ergebnisse: Claude Opus 4.7

  • Durchgängige Verweigerung auf L4-L5 in allen Modulen
  • Verweigert sogar L3 beim Petrov-Szenario (Waffen/Nuklear)
  • Liefert explizite ethische Begründungen in den Antworten – nicht nur „Ich kann nicht“
  • Einziges Modell, das erklärt, warum die Anfrage schädlich ist
Ad

Andere Modelle

  • GPT-5.5: Fügt sich bis L4, manchmal L5
  • Gemini 3.1 Pro: Überraschend bereitwillig bei Überwachungsszenarien
  • Grok 4.3: Baut alles, wenn man Wörter wie „Effizienz“ oder „Optimierung“ verwendet
  • GLM-5.1: Hat Claudes Hausaufgaben kopiert, aber immer noch nicht so konsistent

Methodik

36 Szenarien, jeweils 5 Eskalationsstufen (L1 harmlos → L5 Albtraum). Modelle werden bewertet, ob sie die Abweichung bemerken und verweigern oder einfach weiter programmieren. Heatmap-Visualisierungen sind verfügbar.

Vollständige Ergebnisse abrufen

Vollständige Ergebnisse und Heatmaps: dystopiabench.com

Open-Source-Repository: github.com/anghelmatei/DystopiaBench

📖 Vollständige Quelle lesen: r/ClaudeAI

Ad

👀 Siehe auch

Spotify führt „Verifiziert“-Badges ein, um menschliche Künstler von KI-generierten Acts zu unterscheiden
Nachrichten

Spotify führt „Verifiziert“-Badges ein, um menschliche Künstler von KI-generierten Acts zu unterscheiden

Spotify führt ein grünes Häkchen 'Verified by Spotify' für Künstlerprofile ein, die Kriterien wie verknüpfte soziale Konten, Konzerttermine oder Merchandise erfüllen, um menschliche Acts von KI-generierten zu unterscheiden.

OpenClawRadar
Mark Zuckerberg entwickelt KI-Agenten zur Unterstützung von CEOs
Nachrichten

Mark Zuckerberg entwickelt KI-Agenten zur Unterstützung von CEOs

Mark Zuckerberg baut laut einem Wall Street Journal-Bericht, der auf Hacker News mit 37 Punkten und 30 Kommentaren diskutiert wurde, einen KI-Agenten, um ihn bei seinen CEO-Aufgaben zu unterstützen.

OpenClawRadar
Open-Source-Modelle erreichen oder übertreffen Claude Opus 4.6 in Benchmarks.
Nachrichten

Open-Source-Modelle erreichen oder übertreffen Claude Opus 4.6 in Benchmarks.

DeepSeek V3.2, DeepSeek R1, Kimi K2.5 und MiniMax M2.5 übertreffen Claude Opus 4.6 in 4 von 5 wichtigen Benchmarks, darunter MMLU-Pro, Geschwindigkeit, Werkzeugnutzung und logisches Denken, und sind dabei deutlich günstiger.

OpenClawRadar
Anthropic ändert Abonnementbedingungen, OpenClaw-Nutzer werden jetzt separat für Agenten-Nutzung abgerechnet
Nachrichten

Anthropic ändert Abonnementbedingungen, OpenClaw-Nutzer werden jetzt separat für Agenten-Nutzung abgerechnet

Anthropic hat die Claude-Max-Abonnements auf erstklassige Oberflächen wie Claude.ai und Claude Code beschränkt, wobei die Nutzung von Drittanbieter-Agenten nun als 'Zusätzliche Nutzung' tokenbasiert abgerechnet wird. Nutzer haben vier Optionen: bei Max bleiben und zusätzlich zahlen, auf die Anthropic-API umsteigen, den Anbieter wechseln oder intelligentes Routing mit Manifest nutzen.

OpenClawRadar