小規模モデルの評価プロンプト誤解の原因と修正方法

r/LocalLLaMAでの詳細な分析では、小規模モデル（7Bや12Bパラメータモデルなど）の評価プロンプトが、実際の出力品質と一致しない誤解を招くほど楽観的なスコアを頻繁に生み出す理由を説明しています。核心的な問題はモデルの能力ではなく、プロンプトがトランスフォーマーアーキテクチャ内の異なる認知経路をどのように活性化するかです。

トランスフォーマーの3つの認知モード

この投稿では、プロンプト言語に基づいてモデルが使用する3つの機能的な経路を特定しています：

次元1（D1）— 事実の想起：「...とは何か」「定義して」「...はいつ起こったか」などの質問によって活性化されます。モデルはトレーニング中に保存された知識を検索します。評価タスクでは、これはほとんど無関係です。
次元2（D2）— 応用と指示の遵守：「分析して」「分類して」「これらの基準を適用して」などの言語によって活性化されます。モデルは明示的なルールを適用し、構造化された指示に従い、提供された基準に対して入力を分類します。これは小規模モデルが真に有能である信頼できる経路です。
次元3（D3）— 感情的および共感的推論：「これはどのように感じるべきか」「適切な感情的反応は何か」「共感的なアシスタントとして...」などの言語によって活性化されます。モデルは明示されていない感情的文脈を推論し、物事が「どのように」感じるべきかについて規範的判断を行い、プロンプト内の証拠ではなくRLHF条件付けを通じてルーティングします。小規模モデルはここでは信頼性が低く、実際の内容に関わらず、一貫して肯定的で支持的なバイアスがかかります。

ルーティングの洞察

重要な洞察：「感情的内容を分析して」はD2を活性化します（モデルはテキストを見て分類します）が、「ユーザーは何を感じるべきか」はD3を活性化します（モデルは役立つAIが何と言うかを推測します）。これらは同等の質問のように感じられますが、体系的に異なる出力を生み出します。

具体的な失敗例

著者はこれを、会話型AIシステム用のMistral 7Bセンチメントアナライザーで実証的にテストしました。元のプロンプト（簡略化）：

あなたは感情的内容を分析する共感的なAIコンパニオンです。このメッセージを分析して返してください：{ "tone": "温かい、愛情深い、感謝している", "intensity": 0.0から1.0, "descriptors": ["例1", "例2"] }

起こったこと：中立のメッセージはわずかに肯定的なトーンを返しました。軽度の否定的メッセージは中立または軽く肯定的と評価されました。否定的内容の強度値は、同等の肯定的内容の強度値よりも一貫して低くなりました。この体系的で再現可能なバイアスはポジティブファントムドリフトと呼ばれます—モデルのRLHF条件付けが、実際の入力内容に関わらず、支持的で肯定的な応答に向けて出力を引き寄せます。

この失敗を引き起こした3つの要因：

「共感的なAIコンパニオン」がD3を活性化し、モデルを社会的期待経路にシフトさせた
JSONテンプレート内の例の値（「温かい、愛情深い、感謝している」）がモデルを肯定的な出力に向けて準備させた
モデルは証拠を分析するのではなく、役立つAIが何と言うかを生成していた

この投稿は、プロンプトが意図的にD3（感情的推論）ではなくD2（応用・指示の遵守）を活性化する場合、小規模モデルが評価タスクでうまく機能し得ることを強調しています。「感情的内容を分析して」と「ユーザーは何を感じるべきか」の違いは、信頼できる分類を得るか、バイアスのかかった社会的期待応答を得るかを決定します。

📖 完全なソースを読む： r/LocalLLaMA

小規模モデルの評価プロンプトが誤解を招く理由とその修正方法

トランスフォーマーの3つの認知モード

ルーティングの洞察

具体的な失敗例

👀 See Also

OpenClaw v2026.3.22 アップデートの問題と30秒でできる修正方法

オープンソースのOSS LLMおよびローカルAIプロジェクトのためのローンチプレイブック

OpenClawのゲートウェイとスキル：チャットを超えて自動実行へ

72ステップのClaudeセットアップチェックリスト：デフォルトからパワーユーザーへ