Prompts d'évaluation biaisés : 3 modes cognitifs dans les petits LLM

Une analyse détaillée sur r/LocalLLaMA explique pourquoi les prompts d'évaluation pour les petits modèles (comme les modèles à 7B ou 12B paramètres) produisent souvent des scores trompeurs, trop optimistes, qui ne correspondent pas à la qualité réelle des sorties. Le problème central n'est pas la capacité du modèle, mais la façon dont les prompts activent différents chemins cognitifs dans les architectures de transformateurs.

Les trois modes cognitifs des transformateurs

Le post identifie trois chemins fonctionnels que les modèles utilisent en fonction du langage du prompt :

Dimension 1 (D1) — Rappel factuel : Activée par des questions comme "Qu'est-ce que...", "Définis...", "Quand est-ce que...". Le modèle récupère les connaissances stockées pendant l'entraînement. Pour les tâches d'évaluation, cela est principalement hors sujet.
Dimension 2 (D2) — Application et suivi d'instructions : Activée par un langage comme "Analyse...", "Classe...", "Applique ces critères...". Le modèle applique des règles explicites, suit des instructions structurées et classe les entrées selon les critères fournis. C'est le chemin fiable où les petits modèles sont véritablement compétents.
Dimension 3 (D3) — Inférence émotionnelle et empathique : Activée par un langage comme "Comment cela devrait-il être ressenti ?", "Quelle réponse émotionnelle est appropriée ?", "En tant qu'assistant empathique...". Le modèle infère un contexte émotionnel non énoncé et fait des jugements normatifs sur la façon dont les choses "devraient" être ressenties, passant par le conditionnement RLHF plutôt que par les preuves dans le prompt. Les petits modèles sont peu fiables ici, avec un biais systématiquement positif et favorable, quel que soit le contenu réel.

L'aperçu du routage

L'idée clé : "Analyse le contenu émotionnel" active D2 (le modèle examine le texte et le classe), tandis que "Que devrait ressentir l'utilisateur ?" active D3 (le modèle devine ce qu'un IA utile dirait). Ces questions semblent équivalentes mais produisent des sorties systématiquement différentes.

Exemple concret d'échec

L'auteur a testé cela empiriquement avec un analyseur de sentiments Mistral 7B pour un système d'IA conversationnelle. Le prompt original (simplifié) :

Tu es un compagnon IA empathique analysant le contenu émotionnel. Analyse ce message et retourne : { "ton": "chaleureux, affectueux, reconnaissant", "intensité": 0.0 à 1.0, "descripteurs": ["exemple1", "exemple2"] }

Ce qui s'est passé : Les messages neutres ont retourné un ton légèrement positif. Les messages légèrement négatifs ont été notés comme neutres ou légèrement positifs. Les valeurs d'intensité pour le contenu négatif étaient systématiquement inférieures à celles pour un contenu positif équivalent. Ce biais systématique et reproductible est appelé dérive fantôme positive — le conditionnement RLHF du modèle tirant les sorties vers des réponses favorables et positives, quel que soit le contenu réel de l'entrée.

Trois choses ont causé cet échec :

"Compagnon IA empathique" a activé D3, déplaçant le modèle vers le chemin des attentes sociales
Les valeurs d'exemple dans le modèle JSON ("chaleureux, affectueux, reconnaissant") ont orienté le modèle vers des sorties positives
Le modèle générait ce qu'un IA utile dirait plutôt que d'analyser les preuves

Le post souligne que les petits modèles peuvent bien performer sur les tâches d'évaluation lorsque les prompts activent délibérément D2 (application/suivi d'instructions) plutôt que D3 (inférence émotionnelle). La différence entre "Analyse le contenu émotionnel" et "Que devrait ressentir l'utilisateur ?" détermine si vous obtenez une classification fiable ou des réponses biaisées par les attentes sociales.

📖 Lire la source complète : r/LocalLLaMA

Comment les prompts d'évaluation des petits modèles peuvent induire en erreur et comment y remédier

Les trois modes cognitifs des transformateurs

L'aperçu du routage

Exemple concret d'échec

👀 See Also

Liste de contrôle pour la mise à niveau vers OpenClaw 3.22 : Étapes pratiques d'un développeur qui s'est brûlé les doigts

Mise à jour d'OpenClaw : Correction des erreurs « allowlist miss » de l'exécutable Telegram

Règles du codage Vibe : Créez des projets secondaires depuis votre téléphone avec Claude Code sans lire le code

Le problème de la voix des LLM : éviter les schémas d'écriture générés par l'IA