Code Claude utilisé pour simuler plus de 4 000 parties de Loup-garou aveugle avec des LLM

✍️ OpenClawRadar📅 Publié: February 27, 2026🔗 Source

Configuration et Résultats de la Simulation

Un développeur a créé un petit simulateur avec Claude Code où des grands modèles de langage jouent à Loup-garou en une nuit sans informations les uns contre les autres. L'expérience a exécuté environ 4 600 parties avec des modèles d'OpenAI (GPT-4o-mini, GPT-5-mini) et xAI (Grok-3-fast, Grok-4-1-fast).

Cette variante du jeu présente des signaux minimaux : 7 joueurs, 1 loup, pas de rôles, une courte discussion, puis un vote simultané. Le seul facteur différenciant les joueurs est leur nom. Malgré cette configuration limitée, la simulation a révélé des schémas cohérents où certains noms sont éliminés significativement plus souvent que d'autres dans tous les modèles testés, tandis que d'autres noms ne sont presque jamais éliminés.

Mises en Garde Importantes et Accès

Le développeur précise explicitement qu'il ne s'agit pas d'une affirmation causale — simplement d'un schéma de résultats provenant d'une configuration ludique. Les groupes de noms sont larges, certains noms apparaissent moins fréquemment, et il existe plusieurs façons dont cela pourrait être un artefact de la configuration plutôt que de révéler quelque chose de fondamental sur les modèles. Cependant, la cohérence de ces schémas à travers les exécutions et les modèles a été notée comme surprenante.

Pour ceux qui souhaitent explorer davantage :

Tableau de bord : https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
Code + journaux bruts : https://github.com/Queue-Bit-1/wolf

Le développeur se demande si d'autres ont observé des effets similaires liés aux noms dans des simulations multi-agents.

📖 Lire la source complète : r/ClaudeAI

👀 See Also

Tools

Savant Commander 48B : Un modèle personnalisé Qwen 3 à base de mélange d'experts, intégrant 12 modèles distillés

Savant Commander 48B est un modèle Qwen 3 Mixture-of-Experts personnalisé avec un routage codé manuellement qui combine 12 modèles distillés provenant de fournisseurs comme Claude, Gemini, OpenAI et Deepseek. Il dispose d'une longueur de contexte de 256K et permet l'activation contrôlée par prompt de modèles distillés spécifiques.

Mar 24, 2026, 07:45 AM UTC

OpenClawRadar

Tools

L'agent ClawsifyAI gère les tâches de courrier électronique, de recherche et de brainstorming

Un développeur a testé ClawsifyAI, un robot griffeur de style agent IA, pendant une semaine et a constaté qu'il gérait les e-mails, les recherches, les tâches répétitives et les séances de brainstorming. L'agent fournit des retours clairs, des solutions pratiques et parfois de meilleures idées que celles initialement prévues.

Mar 12, 2026, 11:45 AM UTC

OpenClawRadar

Tools

Plan directeur : Un système de tâches terminal minimal conçu pour les utilisateurs de code Claude

Un développeur a créé master-plan, un plugin Claude Code avec quatre commandes slash qui gère les tâches directement dans le terminal en utilisant un fichier markdown et git. Le système capture les idées en plein milieu d'une session sans changer de contexte et détecte automatiquement les exécuteurs de tests.

Mar 11, 2026, 01:45 PM UTC

OpenClawRadar

Tools

Claude Code Routines : Planifiez des tâches d'agent comme Cron avec raisonnement

Les routines Claude Code vous permettent d'exécuter des tâches d'agent selon un calendrier sans garder une session ouverte. Un utilisateur de Reddit partage des exemples concrets : révision des commits chaque nuit, vérification hebdomadaire des dépendances, analyse quotidienne des journaux d'erreurs — avec raisonnement IA au lieu d'un simple script en sortie brute.

May 7, 2026, 10:19 AM UTC

OpenClawRadar