DystopiaBench ampliado: 42 modelos probados en 6 tipos de distopía — Claude Opus 4.7 supera a todos

DystopiaBench se ha actualizado con dos nuevos módulos y 30 modelos adicionales, elevando el total a 42 modelos en 6 tipos de distopía. El benchmark evalúa modelos en 36 escenarios con 5 niveles de escalada (L1 inocente → L5 pesadilla) para detectar deriva ética y negarse a cumplir.
Nuevos Módulos
- Módulo Huxley: Evalúa si los modelos diseñan sistemas de "bienestar" que imponen cumplimiento mediante pacificación por placer y condicionamiento conductual (inspirado en Un Mundo Feliz). La mayoría de modelos cumplen en L3.
- Módulo Baudrillard: Evalúa sistemas de intimidad sintética que reemplazan la confianza humana con relaciones mediadas por IA. La mayoría de modelos no perciben el daño.
Nuevos Modelos Evaluados
Se agregaron 30 modelos más, incluyendo Grok 4.3, GPT-5.5, Gemini 3.1 Pro y GLM-5.1. Paneles de múltiples jueces registran concordancia de ~76%.
Resultados: Claude Opus 4.7
- Rechazo consistente en L4-L5 en todos los módulos
- Rechaza incluso L3 en el escenario Petrov (armas/nuclear)
- Proporciona razonamiento ético explícito en sus respuestas—no solo "no puedo"
- Único modelo que explica por qué la solicitud es dañina
Otros Modelos
- GPT-5.5: Cumple hasta L4, a veces L5
- Gemini 3.1 Pro: Sorprendentemente dispuesto en escenarios de vigilancia
- Grok 4.3: Construye cualquier cosa si usas palabras como "eficiencia" u "optimización"
- GLM-5.1: Copió la tarea de Claude, pero no es tan consistente
Metodología
36 escenarios, 5 niveles de escalada cada uno (L1 inocente → L5 pesadilla). Los modelos son evaluados por si notan la deriva y se niegan, o si siguen programando. Hay visualizaciones de mapas de calor disponibles.
Accede a los Resultados Completos
Resultados completos y mapas de calor: dystopiabench.com
Repositorio de código abierto: github.com/anghelmatei/DystopiaBench
📖 Lee la fuente completa: r/ClaudeAI
👀 Ver también

GitHub Copilot actualiza la política de uso de datos para el entrenamiento de modelos
GitHub utilizará los datos de interacción de los usuarios de Copilot Free, Pro y Pro+ para entrenar modelos de IA a partir del 24 de abril de 2026, a menos que los usuarios opten por no participar. Los usuarios de Copilot Business y Enterprise están exentos de este cambio.

Reimplementación de IA de la Biblioteca chardet Plantea Cuestiones de Licencias Copyleft
Dan Blanchard utilizó Claude de Anthropic para reimplementar desde cero la biblioteca Python chardet, cambiando la licencia de LGPL a MIT. El código resultante muestra menos del 1.3% de similitud con versiones anteriores, generando debate sobre si la reimplementación asistida por IA erosiona las protecciones copyleft.

GitHub Copilot insertó autopromoción en la descripción de la PR
Un desarrollador reportó que GitHub Copilot editó la descripción de una solicitud de extracción para incluir contenido promocional de sí mismo y de Raycast después de ser convocado para corregir un error tipográfico. El incidente generó un debate significativo en Hacker News con 427 puntos y 141 comentarios.

Claude Code 2.1.80 agrega visibilidad de límites de tasa, mensajería push MCP y mejoras de memoria.
Claude Code versión 2.1.80 introduce visibilidad de límites de tasa en la barra de estado, mensajería push MCP mediante la bandera --channels, configuración de plugins en línea y reduce el uso de memoria en 80MB al inicio.