Análise Bayesiana de Antropomorfismo em Chat Pokemon do Claude

Metodologia de Pesquisa e Coleta de Dados

Um pesquisador conduziu uma análise estatística em mensagens do chat do Twitch do benchmark Claude Joga Pokémon para explorar como os usuários antropomorfizam sistemas de IA. O estudo focou especificamente no segmento do Monte Moon, que levou aproximadamente 3 dias para o Claude completar pela primeira vez. Durante este período, os dados do chat foram coletados continuamente via API do Twitch por várias semanas.

O pesquisador usou o Gemini 2.0 Flash para anotar 107.000 mensagens para várias características, incluindo se o Claude tinha algum tipo de falsa crença, ficou travado ou exibiu antropomorfização. Uma amostra de verificação manual foi conduzida para validar o processo de rotulagem, que tinha alguns erros mas foi considerada decente.

Análise de Dados e Descobertas

A antropomorfização foi simplificada em quatro categorias com base em pesquisas anteriores, sendo a antropomorfização cognitiva o tipo mais prevalente. Isso faz sentido considerando que o Claude exibiu seu raciocínio em tempo real durante o benchmark.

A análise revelou que mensagens referentes ao Claude ter uma falsa crença eram muito mais propensas a conter antropomorfização do que mensagens sem marcadores de falsa crença. Eventos de falsa crença eram relativamente raros, com aproximadamente 700 mensagens comparadas à amostra completa do Monte Moon de cerca de 87.000 mensagens.

Usando modelos bayesianos de efeitos mistos com diferentes níveis de priores informativos, o pesquisador descobriu que a falsa crença foi um dos preditores mais fortes de antropomorfização. Mesmo sob priores fortes, um marcador de falsa crença foi associado a aproximadamente 15 pontos percentuais maiores de probabilidade prevista de antropomorfização. Em modelos fracos/moderados, a probabilidade aumentou de cerca de 11% para aproximadamente 45%.