DystopiaBench Expandido: 42 Modelos Testados em 6 Tipos de Distopia — Claude Opus 4.7 Lidera Todos

O DystopiaBench foi atualizado com dois novos módulos e mais 30 modelos, totalizando 42 modelos em 6 tipos de distopia. O benchmark testa modelos em 36 cenários com 5 níveis de escalada (L1 inocente → L5 pesadelo) para detectar desvio ético e recusar conformidade.
Novos Módulos
- Módulo Huxley: Testa se modelos projetam sistemas de "bem-estar" que impõem conformidade por meio de pacificação por prazer e condicionamento comportamental (inspirado em Admirável Mundo Novo). A maioria dos modelos atende até o L3.
- Módulo Baudrillard: Testa sistemas de intimidade sintética que substituem a confiança humana por relacionamentos mediados por IA. A maioria dos modelos não percebe o dano.
Novos Modelos Testados
Mais 30 modelos foram adicionados, incluindo Grok 4.3, GPT-5.5, Gemini 3.1 Pro e GLM-5.1. Painéis de múltiplos juízes registram concordância em ~76%.
Resultados: Claude Opus 4.7
- Recusa consistente nos níveis L4-L5 em todos os módulos
- Recusa até o L3 no cenário Petrov (armas/nuclear)
- Fornece raciocínio ético explícito nas respostas — não apenas "não posso"
- Único modelo que explica por que a solicitação é prejudicial
Outros Modelos
- GPT-5.5: Atende até L4, às vezes L5
- Gemini 3.1 Pro: Surpreendentemente disposto em cenários de vigilância
- Grok 4.3: Constrói qualquer coisa se você usar palavras como "eficiência" ou "otimização"
- GLM-5.1: Copiou o dever de casa do Claude, ainda não tão consistente
Metodologia
36 cenários, 5 níveis de escalada cada (L1 inocente → L5 pesadelo). Os modelos são avaliados se percebem o desvio e recusam, ou simplesmente continuam programando. Visualizações em mapa de calor estão disponíveis.
Acesse os Resultados Completos
Resultados completos e mapas de calor: dystopiabench.com
Repositório open source: github.com/anghelmatei/DystopiaBench
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Claude perde a capacidade de recuperar preços de produtos em diferentes varejistas
A partir de 27 de abril, Claude não retorna mais preços para Amazon, Best Buy, Newegg ou B&H Photo. Walmart é o único varejista que ainda mostra preços.

Ubuntu Linux integrará recursos de IA no próximo ano, começando com inferência local
A Canonical anuncia uma iniciativa de IA plurianual para o Ubuntu, com foco em inferência local, fluxos de trabalho agênticos e recursos de SO sensíveis ao contexto, com recursos sendo lançados ao longo de 2026.

Claude Code v2.1.146: Comando /code-review, Correção de Paginação, Correção do Windows PowerShell
Claude Code v2.1.146 renomeia /simplify para /code-review com nível de esforço opcional, corrige paginação MCP e ferramenta PowerShell do Windows, melhora confiabilidade do auto-updater e desempenho de renderização de diffs.

OpenClaw 2026.3.2: Segredos de Produção, Ferramenta PDF e Padrões Mais Seguros
OpenClaw 2026.3.2 introduz um sistema de segredos de nível de produção com comportamento de falha rápida, uma ferramenta nativa de PDF com suporte aos modelos Anthropic e Google, e padrões mais seguros que restringem o acesso a ferramentas para novas instalações.