L'analyse de 100 millions de tokens dans Claude Code révèle une utilisation de 99,4 % des entrées.

Répartition de l'utilisation des tokens sur 100 millions de tokens suivis
Une analyse détaillée de l'utilisation de Claude Code a suivi 1 289 requêtes sur des sessions de codage prolongées, totalisant environ 100,9 millions de tokens. La répartition révèle un déséquilibre significatif entre les tokens d'entrée et de sortie.
Répartition des tokens :
- Tokens d'entrée : 100,3 millions (99,4 % du total)
- Tokens mis en cache : 84,2 millions (84 % des entrées)
- Tokens de sortie : 616 000 (0,6 % du total)
Le goulot d'étranglement de la relecture du contexte
Claude Code consacre 99,4 % de son budget de tokens à lire le contexte et seulement 0,6 % à écrire du code. Ce schéma n'est pas spécifique à Claude Code mais reflète le fonctionnement actuel de tous les systèmes de codage agentique. Chaque fois que Claude Code effectue une action — lire un fichier, exécuter une commande, modifier du code — il nécessite que le contexte complet soit réinjecté, y compris la structure du dépôt, l'historique de la conversation, les résultats des outils et les journaux d'erreurs.
Les 84 millions de tokens mis en cache représentent le même contexte réenvoyé 1 289 fois car le modèle n'a pas de mémoire persistante entre les tours. Contrairement aux développeurs humains qui maintiennent un modèle mental de leur base de code, Claude Code suit un schéma de : tout oublier → tout relire → écrire du code → tout oublier à nouveau.
Limitations de la mise en cache des prompts
La mise en cache des prompts d'Anthropic rend ce processus moins coûteux mais pas plus rapide. Le goulot d'étranglement n'est pas la vitesse d'inférence — c'est la boucle de relecture. L'analyse suggère que le véritable déclencheur pour Claude Code et le codage agentique en général serait une mémoire de projet persistante — pas seulement des faits sauvegardés via des fichiers de mémoire ou CLAUDE.md, mais une compréhension compressée et évolutive de la base de code qui se transmet d'une session à l'autre.
Les systèmes actuels forcent essentiellement l'intelligence par la répétition du contexte au lieu de construire une compréhension. Le jour où cela changera pourrait rendre le codage par IA véritablement plus rapide en éliminant le besoin de traiter les mêmes informations à plusieurs reprises.
📖 Lire la source complète : r/ClaudeAI
👀 See Also

L'investissement de 200 milliards de dollars de Micron vise à résoudre les contraintes de mémoire pour l'IA.
Micron investit 200 milliards de dollars pour résoudre les goulets d'étranglement de la mémoire IA, visant à améliorer les capacités de traitement de l'intelligence artificielle.

Pourquoi l'architecture open source d'OpenClaw est importante
Aucun

GM licencie 600 travailleurs informatiques et embauche des ingénieurs spécialisés en IA pour le développement d'agents et de modèles.
General Motors a licencié 600 employés informatiques (~10 % du département) pour embaucher des travailleurs ayant des compétences natives en IA : développement d'agents, ingénierie des données, ingénierie cloud, ingénierie des invites.

Claude Code v2.1.145 : liste des agents JSON, corrections de spans OTEL, correctif de sécurité et plus
Claude Code v2.1.145 ajoute `claude agents --json` pour le scripting, corrige un contournement d'invite de permission, améliore les spans OTEL, etc.