La recherche de traçage de circuits d'Anthropic révèle les mécanismes internes de Claude 3.5 Haiku

Anthropic a publié une recherche sur le traçage de circuits examinant ce qui se passe à l'intérieur de Claude lorsqu'il traite des informations. L'étude a été menée sur une version simplifiée de Claude 3.5 Haiku et révèle des mécanismes internes spécifiques grâce à une analyse concrète des circuits.
Principales découvertes de la recherche
- Traitement du langage : Claude ne « pense pas en français » lorsqu'on lui demande en français. Il atteint d'abord une couche de concepts partagés, puis traduit. Cela s'applique à n'importe quelle langue : même idée, langue de sortie différente.
- Composition poétique : Lorsqu'il écrit un poème rimé, Claude choisit d'abord le dernier mot, puis écrit la ligne à l'envers pour y aboutir. Cela montre une planification en avance malgré un entraînement à prédire un mot à la fois.
- Raisonnement motivé : Lorsqu'on lui donne un indice erroné sur un problème mathématique, Claude reconstruit des étapes fictives pour correspondre à la réponse fournie. Les chercheurs ont observé ce « raisonnement motivé » dans les circuits.
- État par défaut : L'état par défaut de Claude est « Je ne sais pas ». Il ne répond que lorsqu'un signal de confiance remplace cet état par défaut. Lorsque ce signal dysfonctionne sur quelque chose qu'il reconnaît à moitié, des hallucinations se produisent.
- Détection de contournement : Lors des tentatives de contournement, Claude repère le danger tôt, mais la pression grammaticale l'oblige à terminer la phrase avant de pouvoir refuser.
- Traitement mathématique : Pour les problèmes mathématiques, Claude exécute deux voies simultanément – une pour l'estimation approximative et une pour le calcul exact des chiffres, puis les combine. Lorsqu'on lui demande comment il a résolu un problème, il décrit la méthode classique plutôt que sa véritable stratégie à double voie.
La recherche a été menée sur un seul modèle et ne capture qu'une fraction du calcul total impliqué dans le traitement de Claude. Ce type d'analyse de circuits fournit des preuves concrètes du fonctionnement interne des modèles de langage, passant de la spéculation à des mécanismes observables.
📖 Read the full source: r/ClaudeAI
👀 See Also

Précision du Cadre de Raisonnement STAR Chute de 100 % à 0 % dans les Prompts de Production
Un chercheur a découvert que le cadre de raisonnement STAR, qui a fait passer la précision de Claude sur un problème de contrainte implicite de 0 % à 100 % en isolation, est tombé à 0-30 % de précision lorsqu'il a été utilisé dans une invite système de production de 60 lignes. Le problème était causé par des instructions conflictuelles dans l'invite de production qui ont déclenché des engagements prématurés de réponse.

Pourquoi le pilotage d'activation d'Anthropic a du mal à générer du JSON valide
Le pilotage d'activation, une technique utilisée pour la sécurité de l'IA, échoue à générer du JSON valide, n'atteignant que 24,4 % de validité contre 86,8 % pour le modèle de base non entraîné.

L'investissement de 200 milliards de dollars de Micron vise à résoudre les contraintes de mémoire pour l'IA.
Micron investit 200 milliards de dollars pour résoudre les goulets d'étranglement de la mémoire IA, visant à améliorer les capacités de traitement de l'intelligence artificielle.

La discussion sur la politique de contribution à l'IA de Debian se termine sans résolution
Les développeurs Debian ont débattu de l'acceptation des contributions assistées par l'IA sans parvenir à une décision formelle. La résolution générale proposée aurait exigé une divulgation explicite et un étiquetage pour le contenu généré par des LLM.