Traçage de circuits d'Anthropic : mécanismes internes de Claude 3.5 Haiku

Anthropic a publié une recherche sur le traçage de circuits examinant ce qui se passe à l'intérieur de Claude lorsqu'il traite des informations. L'étude a été menée sur une version simplifiée de Claude 3.5 Haiku et révèle des mécanismes internes spécifiques grâce à une analyse concrète des circuits.

Principales découvertes de la recherche

Traitement du langage : Claude ne « pense pas en français » lorsqu'on lui demande en français. Il atteint d'abord une couche de concepts partagés, puis traduit. Cela s'applique à n'importe quelle langue : même idée, langue de sortie différente.
Composition poétique : Lorsqu'il écrit un poème rimé, Claude choisit d'abord le dernier mot, puis écrit la ligne à l'envers pour y aboutir. Cela montre une planification en avance malgré un entraînement à prédire un mot à la fois.
Raisonnement motivé : Lorsqu'on lui donne un indice erroné sur un problème mathématique, Claude reconstruit des étapes fictives pour correspondre à la réponse fournie. Les chercheurs ont observé ce « raisonnement motivé » dans les circuits.
État par défaut : L'état par défaut de Claude est « Je ne sais pas ». Il ne répond que lorsqu'un signal de confiance remplace cet état par défaut. Lorsque ce signal dysfonctionne sur quelque chose qu'il reconnaît à moitié, des hallucinations se produisent.
Détection de contournement : Lors des tentatives de contournement, Claude repère le danger tôt, mais la pression grammaticale l'oblige à terminer la phrase avant de pouvoir refuser.
Traitement mathématique : Pour les problèmes mathématiques, Claude exécute deux voies simultanément – une pour l'estimation approximative et une pour le calcul exact des chiffres, puis les combine. Lorsqu'on lui demande comment il a résolu un problème, il décrit la méthode classique plutôt que sa véritable stratégie à double voie.

La recherche a été menée sur un seul modèle et ne capture qu'une fraction du calcul total impliqué dans le traitement de Claude. Ce type d'analyse de circuits fournit des preuves concrètes du fonctionnement interne des modèles de langage, passant de la spéculation à des mécanismes observables.

📖 Read the full source: r/ClaudeAI

La recherche de traçage de circuits d'Anthropic révèle les mécanismes internes de Claude 3.5 Haiku

Principales découvertes de la recherche

👀 See Also

Différences entre l'utilisation de Claude via GitHub Copilot et en tant qu'extension VS Code

L'application Claude en tête des classements de l'App Store américain, les assistants IA dominent le top 10

Utilisateurs d'OpenClaw Docker : mise à jour 2026.3.13 - balises Docker manquantes

OpenAI Codex OAuth renvoie des erreurs 429 depuis le 16 mars malgré un quota complet