베이지안 모델로 Claude 포켓몬 채팅 의인화 분석

연구 방법론 및 데이터 수집

한 연구자가 Claude Plays Pokemon 벤치마크에서 수집된 트위치 채팅 메시지를 통계적으로 분석하여 사용자가 AI 시스템을 의인화하는 방식을 탐구했습니다. 이 연구는 특히 Claude가 처음 완료하는 데 약 3일이 걸린 Mt. Moon 구간에 초점을 맞췄습니다. 이 기간 동안 트위치 API를 통해 몇 주 동안 채팅 데이터가 지속적으로 수집되었습니다.

연구자는 Gemini 2.0 Flash를 사용하여 107,000개의 메시지에 Claude가 어떤 종류의 허위 믿음을 갖고 있는지, 막혔는지, 의인화가 나타났는지 등 다양한 특징을 주석 처리했습니다. 라벨링 과정을 검증하기 위해 수동 검증 샘플을 수행했으며, 일부 오류는 있었지만 괜찮은 수준으로 평가되었습니다.

데이터 분석 및 결과

의인화는 선행 연구를 바탕으로 네 가지 범주로 단순화되었으며, 인지적 의인화가 가장 흔한 유형으로 나타났습니다. 이는 Claude가 벤치마크 동안 실시간으로 추론 과정을 보여준 점을 고려하면 합리적입니다.

분석 결과, Claude가 허위 믿음을 갖고 있다는 내용의 메시지는 허위 믿음 태그가 없는 메시지보다 의인화를 포함할 가능성이 훨씬 더 높은 것으로 나타났습니다. 허위 믿음 사건은 상대적으로 드물었으며, 약 87,000개 메시지로 구성된 전체 Mt. Moon 샘플 대비 약 700개 메시지에 해당했습니다.

다양한 수준의 정보 사전 분포를 가진 베이지안 혼합 효과 모델을 사용한 결과, 연구자는 허위 믿음이 의인화의 가장 강력한 예측 변수 중 하나임을 발견했습니다. 강력한 사전 분포 하에서도 허위 믿음 태그는 의인화의 예측 확률이 약 15% 포인트 높은 것과 연관되었습니다. 약한/중간 수준의 모델에서는 확률이 약 11%에서 약 45%로 상승했습니다.