でたらめなプロンプトに対するLLMの耐性を測るベンチマークテスト

Bullshit Benchmarkが測定するもの
Bullshit Benchmarkは、大規模言語モデル(LLM)がナンセンスなプロンプトを識別し、それに抵抗するかどうか、自信を持って回答するのではなく評価するためのツールです。これは、モデルが明らかなナンセンスにどれだけ従うかを測定し、モデルが問題のあるプロンプトを指摘するのではなく、役に立とうとして自己誘発的な幻覚を引き起こす可能性があるという懸念に対処します。
主要なベンチマーク結果
ソース資料によると、Claudeモデルはナンセンスを検出する点でGeminiモデルよりも有意に優れたパフォーマンスを示しています。結果は、Claudeモデルがこの特定の能力において優れているという直感を支持しています。
ベンチマークの一例では、Claudeがナンセンスな質問を正常に識別した一方で、Geminiは失敗しました。具体的には、Gemini 3.1 Proは高度な思考努力が有効になっていても明らかなナンセンスな質問を検出できず、代わりにナンセンスな回答を生成しました。
ソースは、AnthropicのポストトレーニングアプローチがClaudeの優れたパフォーマンスに貢献していると示唆しており、LLMは自然に概念間の偽りの関係を生成する表面的な連想的思考に向かう傾向があると指摘しています。Anthropicは、自社のポストトレーニングパイプラインでこの問題に対処したようです。
AIコーディングエージェントにとってこれが重要な理由
AIコーディングアシスタントを使用する開発者にとって、モデルがナンセンスなプロンプトを認識する能力は重要です。モデルがナンセンスな質問に自信を持って回答し、抵抗しない場合、ユーザーを誤解させ、誤ったコードや説明を生成する可能性があります。このベンチマークは、異なるモデル間でこの特定の安全性の行動を評価する具体的な方法を提供します。
完全なベンチマーク結果はhttps://petergpt.github.io/bullshit-benchmark/viewer/index.htmlでご覧いただけます。
📖 完全なソースを読む: r/ClaudeAI
👀 See Also

wearehereブラウザ拡張機能は、サイトの追跡とプライバシーリスクをスキャンします。
wearehereは、Cookie、トラッカー、デバイスフィンガープリンティング、ダークパターンなど10のカテゴリにわたってウェブサイトをスキャンし、プライバシーリスクに基づいてスコアを付けるブラウザ拡張機能です。サイズは200KB未満で、ブラウザ内でローカルに動作し、barebrowse MCPサーバーを介してAIエージェントと統合するためのnpmパッケージとしても提供されています。

ホームバトラー:Claudeを介したマルチサーバーホームラボ管理のためのMCPサーバー
Homebutlerは、組み込みのMCPサーバーを備えたGoバイナリで、リモートマシンにエージェントをインストールすることなく、ClaudeがSSH経由で複数のサーバーを管理できるようにします。システムステータスの監視、Dockerコンテナ管理、ポートスキャン、アラートルールなど9つのツールを提供します。

Gemma 4 E2BをTypeScriptフレームワークにおけるマルチエージェント・コーディネーターとしてテスト
開発者は、オープンマルチエージェントTypeScriptフレームワークを使用したマルチエージェント設定において、Gemma 4 E2Bをコーディネーターとしてテストしました。このモデルは、タスクをJSONに分解し、エージェントを割り当て、bashやファイル操作などのツールを呼び出し、結果を統合することに成功しました。

depct: MCPサーバーはClaudeにライブランタイム分析とドキュメンテーションを提供します
depctは、Node.jsアプリケーションを計装してランタイムデータを収集し、Claudeがコーディング前にアクセスできる信頼度レベル付きの構造化ドキュメントを生成するMCPサーバーです。このツールは、Claudeが変更を加えた後にドキュメントを自動的に更新します。