LLM耐性ベンチマーク：Bullshit BenchmarkでClaudeがGeminiを上回る結果

Bullshit Benchmarkが測定するもの

Bullshit Benchmarkは、大規模言語モデル（LLM）がナンセンスなプロンプトを識別し、それに抵抗するかどうか、自信を持って回答するのではなく評価するためのツールです。これは、モデルが明らかなナンセンスにどれだけ従うかを測定し、モデルが問題のあるプロンプトを指摘するのではなく、役に立とうとして自己誘発的な幻覚を引き起こす可能性があるという懸念に対処します。

主要なベンチマーク結果

ソース資料によると、Claudeモデルはナンセンスを検出する点でGeminiモデルよりも有意に優れたパフォーマンスを示しています。結果は、Claudeモデルがこの特定の能力において優れているという直感を支持しています。

ベンチマークの一例では、Claudeがナンセンスな質問を正常に識別した一方で、Geminiは失敗しました。具体的には、Gemini 3.1 Proは高度な思考努力が有効になっていても明らかなナンセンスな質問を検出できず、代わりにナンセンスな回答を生成しました。

ソースは、AnthropicのポストトレーニングアプローチがClaudeの優れたパフォーマンスに貢献していると示唆しており、LLMは自然に概念間の偽りの関係を生成する表面的な連想的思考に向かう傾向があると指摘しています。Anthropicは、自社のポストトレーニングパイプラインでこの問題に対処したようです。

AIコーディングエージェントにとってこれが重要な理由

AIコーディングアシスタントを使用する開発者にとって、モデルがナンセンスなプロンプトを認識する能力は重要です。モデルがナンセンスな質問に自信を持って回答し、抵抗しない場合、ユーザーを誤解させ、誤ったコードや説明を生成する可能性があります。このベンチマークは、異なるモデル間でこの特定の安全性の行動を評価する具体的な方法を提供します。

完全なベンチマーク結果はhttps://petergpt.github.io/bullshit-benchmark/viewer/index.htmlでご覧いただけます。

📖 完全なソースを読む： r/ClaudeAI