Benchmark absurde : Claude surpasse Gemini face aux invites insensées

Ce que mesure le Bullshit Benchmark

Le Bullshit Benchmark est un outil permettant de tester si les grands modèles de langage (LLM) identifient et résistent aux invites absurdes plutôt que d'y répondre avec assurance. Il mesure à quel point un modèle est prêt à suivre un non-sens évident, abordant les inquiétudes selon lesquelles les modèles pourraient induire eux-mêmes des hallucinations en essayant d'être utiles au lieu de signaler les invites problématiques.

Résultats clés du benchmark

Selon le matériel source, les modèles Claude montrent des performances nettement supérieures à celles des modèles Gemini dans la détection du non-sens. Les résultats confirment l'intuition que les modèles Claude sont meilleurs dans cette capacité spécifique.

Un exemple du benchmark montre que Claude identifie avec succès une question absurde tandis que Gemini échoue. Plus précisément, Gemini 3.1 Pro n'a pas réussi à détecter une question manifestement absurde, même avec un effort de réflexion élevé activé, générant à la place une réponse dénuée de sens.

La source suggère que l'approche de post-formation d'Anthropic contribue aux meilleures performances de Claude, notant que les LLM ont naturellement tendance à adopter une pensée associative superficielle qui génère des relations fallacieuses entre les concepts. Anthropic semble avoir abordé ce problème dans son pipeline de post-formation.

Pourquoi cela importe pour les agents d'IA de codage

Pour les développeurs utilisant des assistants de codage par IA, la capacité d'un modèle à reconnaître les invites absurdes est cruciale. Lorsque les modèles répondent avec assurance à des questions dépourvues de sens au lieu de résister, ils peuvent induire en erreur les utilisateurs et générer du code ou des explications incorrects. Ce benchmark offre un moyen concret d'évaluer ce comportement de sécurité spécifique à travers différents modèles.

Vous pouvez consulter les résultats complets du benchmark à https://petergpt.github.io/bullshit-benchmark/viewer/index.html.

📖 Lire la source complète : r/ClaudeAI

Tests de référence absurdes Résistance des LLM aux invites dénuées de sens

Ce que mesure le Bullshit Benchmark

Résultats clés du benchmark

Pourquoi cela importe pour les agents d'IA de codage

👀 See Also

Le développeur d'OpenClaw crée le plugin de mémoire cognitive Kumiho pour une collaboration persistante entre agents.

Nelson : Un Plugin Claude Code pour Coordonner les Agents IA Comme une Flotte Navale

Plugin Claude Code pour la recherche de marché Reddit sans clés API

JetBrains présente un plugin pour le code Go moderne avec les agents IA Junie et Claude Code