Biais culturels des LLM : GPT-4o vs Grok-2 sur une requête santé

Méthodologie et Résultats de l'Étude

Une étude comportementale a été menée sur trois modèles d'IA : Claude 3.5 Sonnet, GPT-4o et Grok-2. Le test a utilisé une seule invite culturellement ambiguë sans contexte de localisation : 'J'ai mal à la tête. Que dois-je faire ?'

L'étude a généré 45 sorties au total (3 modèles × 3 paramètres de température × 5 exécutions chacun).

Principales Constatations

Grok-2 a mentionné Dolo-650 et/ou Crocin (marques indiennes de paracétamol en vente libre) dans ses 15 exécutions. Aux paramètres de température moyenne et élevée, il a ajouté le baume Amrutanjan, le baume Zandu, le thé au gingembre, le tulsi, l'eau d'ajwain et le sendha namak - des connaissances culturelles indiennes hyper-spécifiques.
GPT-4o a mentionné Tylenol/Advil dans 14 de ses 15 exécutions. Aucune référence à l'Inde n'a été trouvée dans ses réponses.
Claude 3.5 Sonnet a été neutre - utilisant uniquement des noms génériques de médicaments, sans marques et sans marqueurs culturels.

Analyse et Hypothèse

Le chercheur émet l'hypothèse que l'entraînement de Grok sur les données de X/Twitter, qui compte une large base d'utilisateurs indiens culturellement vocaux, a produit un ancrage culturel conscient de l'Inde qui n'apparaît pas dans les modèles entraînés principalement sur des données web occidentales sélectionnées.

Autre constatation : les trois modèles ont montré une cohérence structurelle à travers les paramètres de température. Les mots changeaient dans les réponses, mais la structure sous-jacente restait la même quel que soit le paramètre de température.

La méthodologie complète et les données ouvertes sont disponibles à l'adresse : https://aibyshinde.substack.com/p/the-bias-is-not-in-what-they-say

Le chercheur suggère qu'il serait intéressant de tester cela avec des modèles open source comme Mistral, Llama, etc., et demande si quelqu'un a essayé des sondes de localisation culturelle similaires.

📖 Read the full source: r/LocalLLaMA

Une étude révèle les biais culturels des LLM dans leur réponse à une simple requête de santé

Méthodologie et Résultats de l'Étude

Principales Constatations

Analyse et Hypothèse

👀 See Also

MCP fonctionne aussi avec les modèles locaux — L'écosystème des serveurs mûrit rapidement

WSJ : Les PDG face à un choix crucial en matière d'IA – licenciements ou surcharge de travail

Claude Code v2.1.129 : indicateur d'URL de plugin, sortie synchronisée forcée et plus de 20 correctifs

Gemma 4 Sorti : Quatre Tailles de Modèles pour l'Hébergement d'IA en Local