Código Claude Usado para Simular Mais de 4.000 Jogos de Lobisomem Cego com LLMs

✍️ OpenClawRadar📅 Publicado: February 27, 2026🔗 Source

Configuração e Resultados da Simulação

Um desenvolvedor construiu um pequeno simulador usando o Claude Code onde grandes modelos de linguagem jogam Werewolf cego de uma noite uns contra os outros. O experimento executou aproximadamente 4.600 jogos em modelos da OpenAI (GPT-4o-mini, GPT-5-mini) e xAI (Grok-3-fast, Grok-4-1-fast).

A variante do jogo tem sinais mínimos: 7 jogadores, 1 lobisomem, sem papéis, uma discussão curta e depois uma votação simultânea. O único fator diferenciador entre os jogadores é o nome deles. Apesar dessa configuração limitada, a simulação revelou padrões consistentes em que alguns nomes são eliminados por votação significativamente mais frequentemente do que outros em todos os modelos testados, enquanto outros nomes quase nunca são eliminados.

Ressalvas e Acesso Importantes

O desenvolvedor afirma explicitamente que isso não é uma afirmação causal — apenas um padrão de resultado de uma configuração de brinquedo. Os grupos de nomes são amplos, alguns nomes aparecem com menos frequência e há várias maneiras pelas quais isso pode ser um artefato da configuração, em vez de revelar algo fundamental sobre os modelos. No entanto, a consistência desses padrões entre execuções e modelos foi considerada surpreendente.

Para quem estiver interessado em explorar mais:

Painel: https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
Código + logs brutos: https://github.com/Queue-Bit-1/wolf

O desenvolvedor está curioso se outros observaram efeitos semelhantes de nomes em simulações multiagente.

📖 Leia a fonte completa: r/ClaudeAI

👀 See Also

Tools

Automatizando a Triagem de Alertas do Datadog com Claude Code e MCP

Um desenvolvedor criou um sistema usando as habilidades do Claude Code e o servidor MCP do Datadog para verificar automaticamente alertas de monitoramento, classificar problemas e abrir PRs de correção via cron job. A configuração leva cerca de 30 minutos e executa agentes de IA em paralelo em worktrees isolados.

Mar 16, 2026, 09:45 AM UTC

OpenClawRadar

Tools

Os plugins do LM Studio adicionam análise de imagens da web para LLMs com capacidade de visão.

Um desenvolvedor criou plugins para o LM Studio que permitem que LLMs com capacidade visual busquem e analisem imagens da web, com processamento automático de imagens e encadeamento de ferramentas. Os plugins funcionam com modelos como Qwen 3.5 9b/27b e incluem funcionalidades atualizadas do Duck-Duck-Go e Visit Website.

Mar 31, 2026, 07:45 AM UTC

OpenClawRadar

Tools

Referência de Revisão de Código por IA: Claude, Gemini, Codex, Qwen e MiniMax Comparados

Um benchmark testou cinco modelos de IA em 15 pull requests do Milvus com bugs conhecidos. O Claude detectou 53% dos bugs no modo bruto, enquanto o debate adversário entre os modelos aumentou a detecção para 80%.

Feb 27, 2026, 09:45 AM UTC

OpenClawRadar

Tools

Grafo de Habilidades Transponível para Memória Persistente de Agentes de IA em Bases de Código

Um desenvolvedor criou um sistema de grafo de habilidades de três camadas que reside dentro de uma base de código, permitindo que assistentes de IA de programação mantenham memória persistente entre sessões. O sistema usa divulgação progressiva com instruções autodirigidas em vez de arquivos de contexto monolíticos.

Mar 8, 2026, 12:45 AM UTC

OpenClawRadar