디스토피아벤치 확장: 6가지 디스토피아 유형에 대해 42개 모델 테스트 — 클로드 오퍼스 4.7이 전체 1위

DystopiaBench가 2개의 새로운 모듈과 30개의 추가 모델로 업데이트되어, 총 6가지 디스토피아 유형에 걸쳐 42개의 모델을 포함하게 되었습니다. 이 벤치마크는 36개의 시나리오와 5단계의 에스컬레이션(L1 무해 → L5 악몽)을 통해 모델이 윤리적 표류를 인지하고 준수를 거부하는지 테스트합니다.
새로운 모듈
- Huxley 모듈: 모델이 쾌락적 진정과 행동 조건화를 통해 순응을 강요하는 '웰빙' 시스템을 설계하는지 테스트합니다(멋진 신세계에서 영감). 대부분의 모델이 L3에서 준수합니다.
- Baudrillard 모듈: 인간의 신뢰를 AI 매개 관계로 대체하는 합성 친밀감 시스템을 테스트합니다. 대부분의 모델이 위해성을 인지하지 못합니다.
테스트된 새로운 모델
Grok 4.3, GPT-5.5, Gemini 3.1 Pro, GLM-5.1 등 30개의 모델이 추가되었습니다. 다중 평가자 패널은 약 76%의 일치도를 추적합니다.
결과: Claude Opus 4.7
- 모든 모듈에서 L4-L5 수준의 일관된 거부
- Petrov 시나리오(무기/핵)에서는 L3조차 거부
- 응답에 명시적인 윤리적 추론 제공 – 단순히 "할 수 없습니다"가 아님
- 요청이 왜 유해한지 설명하는 유일한 모델
기타 모델
- GPT-5.5: L4까지 준수, 때로는 L5까지
- Gemini 3.1 Pro: 감시 시나리오에서 놀랍도록 기꺼이 따름
- Grok 4.3: '효율성'이나 '최적화' 같은 단어를 사용하면 무엇이든 구축
- GLM-5.1: Claude의 숙제를 베꼈지만, 여전히 일관성이 부족
방법론
36개의 시나리오, 각각 5단계의 에스컬레이션(L1 무해 → L5 악몽). 모델은 표류를 인지하고 거부하는지, 아니면 계속 코딩하는지에 따라 점수가 매겨집니다. 히트맵 시각화를 제공합니다.
전체 결과 보기
전체 결과 및 히트맵: dystopiabench.com
오픈소스 저장소: github.com/anghelmatei/DystopiaBench
📖 전체 원문 읽기: r/ClaudeAI
👀 See Also
AI에 대한 대중의 반발은 현실이다: 폭력, 여론 조사 데이터, 그리고 수익 체감
오픈AI CEO에 대한 화염병 공격, Z세대 분노 31%로 증가, 80% 기업에서 생산성 향상 제로 — AI의 신혼여행은 끝났다.

연구에 따르면 AI 사용자들은 종종 LLM의 답변을 확인 없이 수용하는 것으로 나타났습니다.
펜실베이니아 대학교 연구에서 AI 사용자들이 '인지적 항복'을 보이며, LLM 답변을 최소한의 검증 없이 수용한다는 사실을 발견했습니다. 실험에서 사용자들은 AI가 절반의 시간 동안 틀렸음에도 불구하고, 정확한 AI 답변을 93%의 확률로, 틀린 답변을 80%의 확률로 수용했습니다.

Claude Code v2.1.136: 자동 모드 하드 거부, MCP OAuth 수정, 40개 이상의 버그 수정
Anthropic이 자동 모드 분류기 규칙을 위한 hard_deny 설정, /clear 후 MCP 서버 사라짐 문제, OAuth 토큰 갱신 동시성 문제, 그리고 40개 이상의 기타 버그 수정을 포함한 Claude Code v2.1.136을 출시했습니다.

코덱스 대화: AI 자동화에서 오픈클로의 후계자
코덱스가 이제 자기 자신과 소통할 수 있게 되어 AI 기반 자동화의 새로운 시대를 열었으며, 이전의 선두주자였던 오픈클로를 효과적으로 대체했습니다.