Código de Claude Utilizado para Simular Más de 4,000 Juegos de Hombre Lobo Ciego con LLMs

✍️ OpenClawRadar📅 Publicado: 27 de febrero de 2026🔗 Source
Código de Claude Utilizado para Simular Más de 4,000 Juegos de Hombre Lobo Ciego con LLMs
Ad

Configuración y Resultados de la Simulación

Un desarrollador construyó un pequeño simulador usando Claude Code donde los grandes modelos de lenguaje juegan al Werewolf ciego de una noche entre sí. El experimento ejecutó aproximadamente 4,600 juegos en modelos de OpenAI (GPT-4o-mini, GPT-5-mini) y xAI (Grok-3-fast, Grok-4-1-fast).

La variante del juego tiene señales mínimas: 7 jugadores, 1 lobo, sin roles, una discusión breve y luego una votación simultánea. El único factor diferenciador entre los jugadores es su nombre. A pesar de esta configuración limitada, la simulación reveló patrones consistentes donde algunos nombres son votados para salir significativamente más a menudo que otros en cada modelo probado, mientras que otros nombres casi nunca son votados para salir.

Ad

Advertencias Importantes y Acceso

El desarrollador afirma explícitamente que esto no es una afirmación causal, solo un patrón de resultados de una configuración de juguete. Los grupos de nombres son amplios, algunos nombres aparecen con menos frecuencia, y hay múltiples formas en que esto podría ser un artefacto de la configuración en lugar de revelar algo fundamental sobre los modelos. Sin embargo, se señaló como sorprendente la consistencia de estos patrones en todas las ejecuciones y modelos.

Para aquellos interesados en explorar más:

  • Panel de control: https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
  • Código + registros sin procesar: https://github.com/Queue-Bit-1/wolf

El desarrollador tiene curiosidad por saber si otros han observado efectos similares de nombres en simulaciones multiagente.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

El flujo de trabajo de codificación autónoma envía 163 mil líneas durante la noche usando Claude Code.
Herramientas

El flujo de trabajo de codificación autónoma envía 163 mil líneas durante la noche usando Claude Code.

Un desarrollador construyó un flujo de trabajo autónomo que completó 72 tareas durante la noche, generando 163,643 líneas de código y más de 6,400 pruebas aprobadas con una tasa de éxito del 85% en el primer intento.

OpenClawRadar
agentmemory V4 logra un 96.2% en el benchmark LongMemEval, superando a los sistemas de memoria de IA comerciales.
Herramientas

agentmemory V4 logra un 96.2% en el benchmark LongMemEval, superando a los sistemas de memoria de IA comerciales.

agentmemory V4 obtuvo un puntaje del 96.2% en LongMemEval, superando a varias empresas de memoria de IA con financiamiento, incluyendo PwC Chronos (95.6%), Mastra (94.87%) y OMEGA (93.2%). El sistema fue construido por una sola persona en 16 días en una PC de gama media con un presupuesto de $1,000.

OpenClawRadar
mycrab.space presenta SKILL.md y Prompt Autocomposer para la implementación estandarizada de aplicaciones
Herramientas

mycrab.space presenta SKILL.md y Prompt Autocomposer para la implementación estandarizada de aplicaciones

mycrab.space ha lanzado SKILL.md, un esquema en Markdown para definir dependencias y configuración de aplicaciones, y un Compositor Automático de Comandos que genera órdenes de despliegue listas para usar a partir de estos archivos. El sistema permite el despliegue sin configuración de aplicaciones como VS Code en el navegador, nubes de música personal e interfaces de agentes de IA.

OpenClawRadar
FixAI Dev: Un Juego de Derechos del Consumidor Usando Claude Haiku con Contratos JSON Estrictos
Herramientas

FixAI Dev: Un Juego de Derechos del Consumidor Usando Claude Haiku con Contratos JSON Estrictos

Un desarrollador creó un juego de navegador donde Claude Haiku actúa como una IA corporativa que niega solicitudes de consumidores; los jugadores argumentan utilizando leyes reales de protección al consumidor en 37 casos de la UE, EE. UU., Reino Unido y Australia. La arquitectura usa Haiku solo para el lenguaje, con lógica del juego en el servidor y contratos JSON estrictos entre componentes.

OpenClawRadar