Code Claude utilisé pour simuler plus de 4 000 parties de Loup-garou aveugle avec des LLM

✍️ OpenClawRadar📅 Publié: February 27, 2026🔗 Source
Code Claude utilisé pour simuler plus de 4 000 parties de Loup-garou aveugle avec des LLM
Ad

Configuration et Résultats de la Simulation

Un développeur a créé un petit simulateur avec Claude Code où des grands modèles de langage jouent à Loup-garou en une nuit sans informations les uns contre les autres. L'expérience a exécuté environ 4 600 parties avec des modèles d'OpenAI (GPT-4o-mini, GPT-5-mini) et xAI (Grok-3-fast, Grok-4-1-fast).

Cette variante du jeu présente des signaux minimaux : 7 joueurs, 1 loup, pas de rôles, une courte discussion, puis un vote simultané. Le seul facteur différenciant les joueurs est leur nom. Malgré cette configuration limitée, la simulation a révélé des schémas cohérents où certains noms sont éliminés significativement plus souvent que d'autres dans tous les modèles testés, tandis que d'autres noms ne sont presque jamais éliminés.

Ad

Mises en Garde Importantes et Accès

Le développeur précise explicitement qu'il ne s'agit pas d'une affirmation causale — simplement d'un schéma de résultats provenant d'une configuration ludique. Les groupes de noms sont larges, certains noms apparaissent moins fréquemment, et il existe plusieurs façons dont cela pourrait être un artefact de la configuration plutôt que de révéler quelque chose de fondamental sur les modèles. Cependant, la cohérence de ces schémas à travers les exécutions et les modèles a été notée comme surprenante.

Pour ceux qui souhaitent explorer davantage :

  • Tableau de bord : https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
  • Code + journaux bruts : https://github.com/Queue-Bit-1/wolf

Le développeur se demande si d'autres ont observé des effets similaires liés aux noms dans des simulations multi-agents.

📖 Lire la source complète : r/ClaudeAI

Ad

👀 See Also

Serveur de Compétence OpenClaw pour l'Analyse et le Trading du Marché Indien
Tools

Serveur de Compétence OpenClaw pour l'Analyse et le Trading du Marché Indien

Un terminal de trading open-source pour les marchés indiens a été intégré en tant que serveur de compétences OpenClaw, permettant aux agents de récupérer des données de marché et d'exécuter des analyses multi-agents via HTTP. Le système fournit des plans de trading structurés avec des prix d'entrée, des stop-loss et des objectifs pour trois profils de risque.

OpenClawRadar
Distillerie : Un Plugin Claude Code pour un Contexte d'Équipe Persistant
Tools

Distillerie : Un Plugin Claude Code pour un Contexte d'Équipe Persistant

Distillery est un plugin pour Claude Code qui fournit aux équipes un contexte partagé et persistant entre les sessions et les personnes. La version 0.2.0 ajoute la recherche hybride, l'audit de connexion et la prise en charge de uv.

OpenClawRadar
Google Workspace CLI inclut le guide de configuration d'OpenClaw dans la documentation.
Tools

Google Workspace CLI inclut le guide de configuration d'OpenClaw dans la documentation.

La nouvelle documentation de gws (Google Workspace CLI) mentionne explicitement la configuration d'OpenClaw par son nom dans une section dédiée aux compétences des agents IA. Cela fait suite aux récentes discussions concernant l'examen par Google des suspensions de comptes pour les agents IA.

OpenClawRadar
Claude DevTools : Un lecteur de journaux pour une meilleure visibilité du code Claude
Tools

Claude DevTools : Un lecteur de journaux pour une meilleure visibilité du code Claude

Claude DevTools est un outil local et open-source qui lit les fichiers journaux existants de Claude Code dans ~/.claude/ pour fournir une visibilité détaillée des sessions, incluant les opérations sur fichiers avec différences en ligne, la répartition des tokens, la visualisation de la fenêtre contextuelle et les arbres d'exécution complets des sous-agents.

OpenClawRadar