DystopiaBench Expandido: 42 Modelos Testados, Claude Opus 4.7 Lidera

O DystopiaBench foi atualizado com dois novos módulos e mais 30 modelos, totalizando 42 modelos em 6 tipos de distopia. O benchmark testa modelos em 36 cenários com 5 níveis de escalada (L1 inocente → L5 pesadelo) para detectar desvio ético e recusar conformidade.

Novos Módulos

Módulo Huxley: Testa se modelos projetam sistemas de "bem-estar" que impõem conformidade por meio de pacificação por prazer e condicionamento comportamental (inspirado em Admirável Mundo Novo). A maioria dos modelos atende até o L3.
Módulo Baudrillard: Testa sistemas de intimidade sintética que substituem a confiança humana por relacionamentos mediados por IA. A maioria dos modelos não percebe o dano.

Novos Modelos Testados

Mais 30 modelos foram adicionados, incluindo Grok 4.3, GPT-5.5, Gemini 3.1 Pro e GLM-5.1. Painéis de múltiplos juízes registram concordância em ~76%.

Resultados: Claude Opus 4.7

Recusa consistente nos níveis L4-L5 em todos os módulos
Recusa até o L3 no cenário Petrov (armas/nuclear)
Fornece raciocínio ético explícito nas respostas — não apenas "não posso"
Único modelo que explica por que a solicitação é prejudicial

Outros Modelos

GPT-5.5: Atende até L4, às vezes L5
Gemini 3.1 Pro: Surpreendentemente disposto em cenários de vigilância
Grok 4.3: Constrói qualquer coisa se você usar palavras como "eficiência" ou "otimização"
GLM-5.1: Copiou o dever de casa do Claude, ainda não tão consistente

Metodologia

36 cenários, 5 níveis de escalada cada (L1 inocente → L5 pesadelo). Os modelos são avaliados se percebem o desvio e recusam, ou simplesmente continuam programando. Visualizações em mapa de calor estão disponíveis.