Código Claude Usado para Simular Mais de 4.000 Jogos de Lobisomem Cego com LLMs

Configuração e Resultados da Simulação
Um desenvolvedor construiu um pequeno simulador usando o Claude Code onde grandes modelos de linguagem jogam Werewolf cego de uma noite uns contra os outros. O experimento executou aproximadamente 4.600 jogos em modelos da OpenAI (GPT-4o-mini, GPT-5-mini) e xAI (Grok-3-fast, Grok-4-1-fast).
A variante do jogo tem sinais mínimos: 7 jogadores, 1 lobisomem, sem papéis, uma discussão curta e depois uma votação simultânea. O único fator diferenciador entre os jogadores é o nome deles. Apesar dessa configuração limitada, a simulação revelou padrões consistentes em que alguns nomes são eliminados por votação significativamente mais frequentemente do que outros em todos os modelos testados, enquanto outros nomes quase nunca são eliminados.
Ressalvas e Acesso Importantes
O desenvolvedor afirma explicitamente que isso não é uma afirmação causal — apenas um padrão de resultado de uma configuração de brinquedo. Os grupos de nomes são amplos, alguns nomes aparecem com menos frequência e há várias maneiras pelas quais isso pode ser um artefato da configuração, em vez de revelar algo fundamental sobre os modelos. No entanto, a consistência desses padrões entre execuções e modelos foi considerada surpreendente.
Para quem estiver interessado em explorar mais:
- Painel: https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
- Código + logs brutos: https://github.com/Queue-Bit-1/wolf
O desenvolvedor está curioso se outros observaram efeitos semelhantes de nomes em simulações multiagente.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Nelson v2.2.3 Lançado: Coordenação Multiagente para Claude Code, Além de um Benchmark de Simulação de Eventos Discretos
Nelson v2.2.3 traz uma habilidade de coordenação multiagente para Claude Code usando uma metáfora naval. Um benchmark com 13 configurações mostra que opus-4-7 com thinking domina; a escolha da habilidade é um delta menor.

Engram: Camada de memória de código aberto para clientes Claude Code e MCP
Engram é uma camada de memória de código aberto que funciona como um servidor MCP com qualquer cliente como Claude Code, Cursor ou Windsurf. Armazena memórias ilimitadas com busca vetorial semântica, alcança 80% de precisão no benchmark LOCOMO e usa cerca de 800 tokens por consulta versus 5K+ para abordagens baseadas em arquivos.

Seis ferramentas de código aberto que abordam os problemas de segurança, custo e complexidade do OpenClaw
Um desenvolvedor testou seis ferramentas da comunidade para resolver as lacunas de segurança do OpenClaw sinalizadas pela Cisco, custos crescentes e configuração complexa. ClawSec fornece varredura de segurança e verificação de integridade, Antfarm permite fluxos de trabalho multiagente determinísticos e LanceDB Pro melhora a recuperação de memória com busca vetorial híbrida.

Servidor MCP OpenGalatea Conecta Claude às Impressoras 3D Prusa
OpenGalatea é um servidor MCP de código aberto que permite ao Claude controlar impressoras 3D Prusa via PrusaLink, permitindo comandos em linguagem natural para buscar no Printables.com, fatiar modelos e gerenciar impressões.