Claude Code wurde verwendet, um über 4.000 Blind-Werewolf-Spiele mit LLMs zu simulieren

✍️ OpenClawRadar📅 Veröffentlicht: 27. Februar 2026🔗 Source

Simulationsaufbau und Ergebnisse

Ein Entwickler erstellte mit Claude Code einen kleinen Simulator, in dem große Sprachmodelle blindes Ein-Nacht-Werwolf gegeneinander spielen. Das Experiment lief etwa 4.600 Spiele über Modelle von OpenAI (GPT-4o-mini, GPT-5-mini) und xAI (Grok-3-fast, Grok-4-1-fast).

Die Spielvariante hat minimale Signale: 7 Spieler, 1 Werwolf, keine Rollen, eine kurze Diskussion, dann eine gleichzeitige Abstimmung. Der einzige Unterscheidungsfaktor zwischen den Spielern ist ihr Name. Trotz dieses begrenzten Aufbaus zeigte die Simulation konsistente Muster, bei denen einige Namen in jedem getesteten Modell deutlich häufiger abgestimmt werden als andere, während andere Namen fast nie abgestimmt werden.

Wichtige Einschränkungen und Zugang

Der Entwickler betont ausdrücklich, dass dies keine kausale Behauptung ist – nur ein Ergebnismuster aus einem Spielzeugaufbau. Die Namensgruppen sind breit gefasst, einige Namen kommen seltener vor, und es gibt mehrere Möglichkeiten, wie dies ein Artefakt des Aufbaus sein könnte, anstatt etwas Grundlegendes über die Modelle zu enthüllen. Die Konsistenz dieser Muster über Läufe und Modelle hinweg wurde jedoch als überraschend vermerkt.

Für diejenigen, die weiter erkunden möchten:

Dashboard: https://huggingface.co/spaces/Queue-Bit-1/llm-bias-dashboard
Code + Rohprotokolle: https://github.com/Queue-Bit-1/wolf

Der Entwickler ist neugierig, ob andere ähnliche Namenseffekte in Multi-Agenten-Simulationen beobachtet haben.

📖 Read the full source: r/ClaudeAI

👀 Siehe auch

Werkzeuge

OmniRecall Beta: FAISS-gestützte Speicherinjektion für Cloud-LLM-Chats

OmniRecall ist eine lokale mitmproxy-Umgehung, die den Datenverkehr zu Cloud-Chat-Schnittstellen wie DeepSeek abfängt und eine permanente Speicherschicht mittels FAISS-Indexierung und sentence-transformers MiniLM-L6 hinzufügt. Es befindet sich derzeit in der Beta-Phase, erfordert CPU-only-Betrieb und verwendet eine aggressiv restriktive quelloffene Lizenz.

16. März 2026, 16:45 UTC

OpenClawRadar

Werkzeuge

Entwickler baut Power Automate MCP Server mit 108 Tools und plattformübergreifender Unterstützung

Ein Entwickler hat einen Power Automate MCP-Server erstellt, der von 12 auf 108 Tools erweitert wurde und Dataverse-CRUD über OData, SharePoint-Verwaltung über Graph, Power Apps-Versionierung, Umgebungsadministration sowie plattformübergreifende Unterstützung für Windows, macOS und Linux abdeckt.

14. März 2026, 01:45 UTC

OpenClawRadar

Werkzeuge

Das Nia-docs-Tool erstellt ein lokales Dateisystem aus Dokumentations-URLs für Claude AI.

Das nia-docs-Tool ermöglicht es Ihnen, npx nia-docs mit einer Dokumentations-URL auszuführen, um ein lokales Dateisystem der Dokumentation zu erstellen, auf das Claude AI dann direkt ohne zusätzliche Konfiguration zugreifen kann.

21. Apr. 2026, 04:22 UTC

OpenClawRadar

Werkzeuge

Total Recall: Lokales Wissensgraphen-System für den Claude-Code-Konversationsverlauf

Total Recall ist ein Open-Source-System, das JSONL-Konversationstranskripte von Claude Code in eine SQLite-Datenbank mit Volltextsuche und Vektoreinbettungen aufnimmt, wodurch der Konversationsverlauf über Sitzungen hinweg durchsuchbar wird. Es ruft tatsächliche Konversationsausschnitte mit DAG-bewusstem Kontext ab und beinhaltet einen ChatGPT-Importer.

6. Apr. 2026, 17:45 UTC

OpenClawRadar