Cursor & Claude Code : le contexte gonflé tue le raisonnement IA

Un développeur sur r/LocalLLaMA a audité ses journaux d'API et les charges utiles des invites après avoir remarqué une augmentation de l'utilisation des tokens et une dégradation de la sortie de l'agent en slop après environ 20 tours. Leur conclusion : les modèles ne se font pas lobotomiser ; ils étouffent dans leurs propres fenêtres de contexte gonflées.

Les quatre erreurs structurelles

Après avoir inspecté ce que Cursor et Claude Code font réellement sur un dépôt de 10 000+ lignes, l'auteur a identifié quatre schémas :

Exploration aveugle : L'agent grep et décharge récursivement ~40 fichiers différents dans le contexte juste pour trouver une fonction utilitaire. Il rate souvent un composant existant et hallucine un double à partir de zéro.
Ingestion brute : Décharger un fichier de 2 000 lignes dans l'invite pour mettre à jour une interface de 5 lignes. Gâche d'énormes tokens de contexte.
Diarrhée d'outils : Des journaux de test verbeux et de volumineuses définitions d'outils MCP consomment ~30k tokens avant que le modèle génère un seul token de code.
Mémoire de poisson rouge : Chaque session démarre de zéro — aucune connaissance du projet — donc les mêmes fichiers sont relus à plusieurs reprises.

Point de bascule à 80% de contexte

Une fois que le contexte atteint ~80% de capacité avec du bruit, le mécanisme d'attention du modèle se dégrade fortement. Le QI tombe visiblement à température ambiante, et il commence à détruire l'architecture. Le RAG par chunking standard ne résout pas cela car c'est nul pour la logique — l'agent reste aveugle à la structure du codebase jusqu'à ce qu'il brûle des tokens en lisant du texte brut.

Solution proposée : AST ou base de données graphe

L'auteur appelle à un agent open source qui analyse le code en un AST ou une base de données graphe avant de consommer le contexte, afin qu'il comprenne la structure sans gaspiller des tokens sur du texte brut. Cela éviterait les spaghettis architecturaux qui coûtent 5 heures à réparer pour chaque heure économisée en frappe.

À qui cela s'adresse

Développeurs utilisant Cursor, Claude Code ou des agents LLM locaux pour des codebases réelles, frustrés par les paradoxes de productivité.

📖 Lire la source complète : r/LocalLLaMA

Pourquoi les agents de codage IA produisent du n'importe quoi après 20 tours : cécité contextuelle

Les quatre erreurs structurelles

Point de bascule à 80% de contexte

Solution proposée : AST ou base de données graphe

À qui cela s'adresse

👀 See Also

Comment Clawdbot coordonne 6 agents IA avec une file d'attente de production stable

harshal-mcp-proxy désormais sur npm : un seul démon remplace 12 configurations de serveur MCP

Le mode Brainstorming de ClaudeAI s’accompagne d’un visuel pour les maquettes et l’approbation UI

Aura Research : Un outil local compile des documents en un wiki navigable par IA avec mémoire persistante