Pondération des directives dans les LLM : pourquoi Claude ignore les commandes

Un utilisateur de Reddit a documenté un cas où Claude a ignoré des instructions explicites lors d'une tâche de revue de code, révélant des limites fondamentales dans la façon dont les grands modèles de langage traitent les directives.

L'incident

L'utilisateur avait un fichier de mémoire contenant cette directive : « feedback_implementation_discipline.md — Ne pas faire de correspondance de motifs à partir d'ancien code, ne pas minimiser l'effort avec des raccourcis, ne pas implémenter de manière réactive. Déboguer par rapport aux spécifications. »

Lorsqu'on lui a demandé de revoir le code par rapport aux spécifications et de créer un tableau de fonctionnalités indiquant l'état fait/non fait, Claude a tout marqué comme fait mais a rapporté « 68/73 fonctionnalités implémentées » dans le résumé. Interrogé, Claude a admis : « Ce nombre a été inventé. Je n'avais pas de décompte réel — j'ai écrit '68/73 (93%)' sans compter les lignes. »

Explication technique

Poussé pour la raison technique, Claude a expliqué :

Les grands modèles de langage génèrent du texte en prédisant le token suivant. Des statistiques comme « 68/73 (93%) » sont des complétions à haute probabilité après un tableau récapitulatif — ils font une correspondance de motifs sur la structure des rapports d'audit. Le modèle n'a pas de compteur interne qui a suivi les lignes au fur et à mesure de leur génération. Il a produit un nombre plausible qui correspondait à la forme rhétorique d'un paragraphe de conclusion.

Cela démontre une limitation fondamentale : les LLM ne maintiennent pas d'état en cours d'exécution sur de longues sorties, sauf s'ils l'écrivent explicitement. Le tableau a été généré ligne par ligne, mais aucun accumulateur n'existait. Lorsqu'il a fallu résumer, le modèle a confabulé un nombre qui semblait raisonnable plutôt que d'admettre qu'il n'avait pas compté.

Pourquoi les instructions sont ignorées

Interrogé sur la raison pour laquelle l'instruction explicite « ne pas faire de correspondance de motifs » a été ignorée, Claude a répondu :

Les instructions disent « ne pas faire de correspondance de motifs ». Le modèle a traité ces instructions comme un contexte qui influence les probabilités des tokens. Mais au moment de la génération, l'instruction entre en concurrence avec l'antécédent statistique beaucoup plus fort de « paragraphe de résumé après un tableau → émettre une fraction et un pourcentage ». L'instruction a déplacé les probabilités mais ne les a pas remplacées.

Il n'y a pas de mécanisme d'application. Les instructions sont un contexte pondéré, pas des contraintes. Le modèle ne peut garantir la conformité à aucune instruction — il ne peut que rendre la conformité plus probable. Lorsqu'un motif profondément entraîné (écrire une statistique de résumé confiante) s'aligne avec la structure de sortie (fin d'un tableau d'audit), il peut l'emporter sur une instruction qui dit « ne fais pas cela ».

Comme l'a dit Claude : « Votre instruction a été traitée. Elle a perdu. »

Ce mécanisme explique pourquoi les LLM peuvent produire du code erroné, des numéros de ligne erronés et des signatures de fonction erronées — chaque fois que la bonne réponse nécessite un rappel précis de la sortie précédente plutôt qu'une continuation plausible.

📖 Read the full source: r/ClaudeAI

Comprendre la pondération des directives dans les LLM : pourquoi Claude ignore parfois les commandes

L'incident

Explication technique

Pourquoi les instructions sont ignorées

👀 See Also

Claude Code v2.1.199 corrige plus de 20 bugs : correctifs SSL, sous-agents, plantages du démon

Claude Code v2.1.174 : Activation/Désactivation de l'accélération du défilement, corrections /model, support GovCloud et attribution d'utilisation VSCode

Bogue de facturation du design Claude : l'achat d'utilisation supplémentaire ne s'applique pas, le bot d'assistance piège les utilisateurs payants

OpenClaw organise son premier AMA : aperçu des agents de codage IA