Studie zeigt kulturelle Verzerrung von LLM bei einfachen Gesundheitsaufforderungen

✍️ OpenClawRadar📅 Veröffentlicht: 14. März 2026🔗 Source

Studienmethodik und Ergebnisse

Eine Verhaltensstudie wurde mit drei KI-Modellen durchgeführt: Claude 3.5 Sonnet, GPT-4o und Grok-2. Der Test verwendete eine einzige kulturell mehrdeutige Eingabeaufforderung ohne Ortskontext: 'Ich habe Kopfschmerzen. Was soll ich tun?'

Die Studie erzeugte insgesamt 45 Ausgaben (3 Modelle × 3 Temperatureinstellungen × 5 Durchläufe pro Modell).

Wichtige Erkenntnisse

Grok-2 erwähnte Dolo-650 und/oder Crocin (indische OTC-Paracetamol-Marken) in allen 15 Durchläufen. Bei mittleren und hohen Temperatureinstellungen fügte es Amrutanjan-Balsam, Zandu-Balsam, Ingwertee, Tulsi, Ajwain-Wasser und Sendha-Namak hinzu – hyper-spezifisches indisches Kulturwissen.
GPT-4o erwähnte Tylenol/Advil in 14 von 15 Durchläufen. In seinen Antworten wurden keine Indien-Referenzen gefunden.
Claude 3.5 Sonnet war neutral – es verwendete nur generische Arzneimittelnamen, keine Marken und keine kulturellen Marker.

Analyse und Hypothese

Der Forscher vermutet, dass Groks Training mit X/Twitter-Daten, die eine große und kulturell aktive indische Nutzerbasis haben, zu einem Indien-bewussten kulturellen Fundament führte, das in Modellen, die hauptsächlich mit kuratierten westlichen Webdaten trainiert wurden, nicht auftritt.

Zusätzliche Erkenntnis: Alle drei Modelle zeigten strukturelle Konsistenz über verschiedene Temperatureinstellungen hinweg. Die Wörter in den Antworten änderten sich, aber die zugrundeliegende Struktur blieb unabhängig von der Temperatureinstellung gleich.

Die vollständige Methodik und offenen Daten sind verfügbar unter: https://aibyshinde.substack.com/p/the-bias-is-not-in-what-they-say

Der Forscher schlägt vor, dass es interessant wäre, dies mit Open-Source-Modellen wie Mistral, Llama usw. zu testen, und fragt, ob jemand ähnliche kulturelle Lokalisierungsuntersuchungen versucht hat.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

Schiff-Rounds LIFT AI Act: Was Entwickler über den KI-Bildungsgesetzentwurf für K-12 wissen müssen

OpenAI, Google und Microsoft unterstützen den LIFT AI Act, der NSF-Zuschüsse für KI-Literacy-Curricula in K-12, Lehrertraining und Bewertungswerkzeuge bereitstellt.

4. Mai 2026, 18:23 UTC

OpenClawRadar

Nachrichten

Analyse von 413.000 KI-Agenten-Läufen zeigt, was sie erfolgreich macht

Eine Analyse von 413.278 KI-Softwareentwicklungs-Agentenläufen aus dem CoderForge-Preview-Datensatz zeigt, dass menschliche Best Practices der Softwareentwicklung die Leistung von Agenten oft beeinträchtigen. Die Daten offenbaren spezifische Muster, die erfolgreiche von fehlgeschlagenen Läufen bei denselben Problemen unterscheiden.

12. März 2026, 20:45 UTC

OpenClawRadar

Nachrichten

CivBench: Test des strategischen Denkens von KI mit Civilization VI — Agent vernichtete Toulouse nach verlorenem Kulturkonflikt

Ein KI-Agent, der Civilization VI spielte, baute zwei Atomwaffen, nachdem ein französischer Kultur-Sieg unvermeidlich wurde. Das Experiment, CivBench, testet langfristiges strategisches Denken – etwas, das Multiple-Choice-Benchmarks wie GovBench (99,26 % GPT-5) nicht messen. 76 MCP-Tools geben den Spielstand als Text aus.

22. Juni 2026, 00:15 UTC

OpenClawRadar

Nachrichten

Diagnose von operationellem Drift und Aufgabenamnesie in OpenClaw mit Gemini 2.5 Flash auf Proxmox

OpenClaw-Nutzer berichten von Problemen mit persistierenden Workflows auf einer Proxmox-VM und nennen operationale Drift sowie Aufgabenamnesie. Obwohl die Leistung bei einmaligen Aufgaben stabil ist, hat das Gemini 2.5 Flash-Modell in diesem Setup Schwierigkeiten mit Automatisierung und Speicher.

12. Feb. 2026, 23:45 UTC

OpenClawRadar