클로드 코드로 4,600 게임 시뮬레이션: LLM 이름 기반 투표 패턴 발견

시뮬레이션 설정 및 결과

한 개발자가 Claude Code를 사용해 대규모 언어 모델들이 서로 눈가리개 원나이트 웨어울프를 플레이하는 작은 시뮬레이터를 구축했습니다. 이 실험은 OpenAI(GPT-4o-mini, GPT-5-mini)와 xAI(Grok-3-fast, Grok-4-1-fast) 모델을 대상으로 약 4,600게임을 실행했습니다.

이 게임 변형은 최소한의 신호만을 가지고 있습니다: 7명의 플레이어, 1마리의 늑대, 역할 없음, 짧은 토론 한 번, 그 후 동시 투표입니다. 플레이어들 사이의 유일한 차별화 요소는 그들의 이름입니다. 이 제한된 설정에도 불구하고, 시뮬레이션은 일부 이름들이 테스트된 모든 모델에서 다른 이름들보다 훨씬 더 자주 투표로 제외되는 반면, 다른 이름들은 거의 제외되지 않는 일관된 패턴을 드러냈습니다.

중요한 주의사항 및 접근 방법

개발자는 이것이 인과 관계 주장이 아니라 장난감 설정에서 나온 결과 패턴일 뿐이라고 명시적으로 밝혔습니다. 이름 그룹은 광범위하며, 일부 이름은 덜 자주 나타나고, 이것이 모델에 관한 근본적인 것을 드러내기보다는 설정의 부산물일 수 있는 여러 방법이 있습니다. 그러나 이러한 패턴의 실행과 모델 간 일관성은 놀라운 것으로 지적되었습니다.

더 탐구하고 싶은 분들을 위해: