Pourquoi les agents de codage IA produisent du n'importe quoi après 20 tours : cécité contextuelle

Un développeur sur r/LocalLLaMA a audité ses journaux d'API et les charges utiles des invites après avoir remarqué une augmentation de l'utilisation des tokens et une dégradation de la sortie de l'agent en slop après environ 20 tours. Leur conclusion : les modèles ne se font pas lobotomiser ; ils étouffent dans leurs propres fenêtres de contexte gonflées.
Les quatre erreurs structurelles
Après avoir inspecté ce que Cursor et Claude Code font réellement sur un dépôt de 10 000+ lignes, l'auteur a identifié quatre schémas :
- Exploration aveugle : L'agent grep et décharge récursivement ~40 fichiers différents dans le contexte juste pour trouver une fonction utilitaire. Il rate souvent un composant existant et hallucine un double à partir de zéro.
- Ingestion brute : Décharger un fichier de 2 000 lignes dans l'invite pour mettre à jour une interface de 5 lignes. Gâche d'énormes tokens de contexte.
- Diarrhée d'outils : Des journaux de test verbeux et de volumineuses définitions d'outils MCP consomment ~30k tokens avant que le modèle génère un seul token de code.
- Mémoire de poisson rouge : Chaque session démarre de zéro — aucune connaissance du projet — donc les mêmes fichiers sont relus à plusieurs reprises.
Point de bascule à 80% de contexte
Une fois que le contexte atteint ~80% de capacité avec du bruit, le mécanisme d'attention du modèle se dégrade fortement. Le QI tombe visiblement à température ambiante, et il commence à détruire l'architecture. Le RAG par chunking standard ne résout pas cela car c'est nul pour la logique — l'agent reste aveugle à la structure du codebase jusqu'à ce qu'il brûle des tokens en lisant du texte brut.
Solution proposée : AST ou base de données graphe
L'auteur appelle à un agent open source qui analyse le code en un AST ou une base de données graphe avant de consommer le contexte, afin qu'il comprenne la structure sans gaspiller des tokens sur du texte brut. Cela éviterait les spaghettis architecturaux qui coûtent 5 heures à réparer pour chaque heure économisée en frappe.
À qui cela s'adresse
Développeurs utilisant Cursor, Claude Code ou des agents LLM locaux pour des codebases réelles, frustrés par les paradoxes de productivité.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Slate : Application de chat IA macOS open source avec navigateur intégré
Slate est une application native pour macOS qui combine un chat IA et la navigation web dans une seule fenêtre, prenant en charge les modèles Anthropic, OpenAI, Gemini et Ollama. Elle est construite avec SwiftUI et WebKit, fonctionne avec peu de ressources et est sous licence MIT.

Sens : SDK Go pour les assertions de test basées sur les LLM et l'extraction de texte structuré
Sense est un SDK Go qui utilise Claude pour deux fonctions principales : évaluer les sorties non déterministes dans les tests avec des assertions en langage naturel, et extraire des structures typées de textes non structurés via la réflexion et l'utilisation forcée d'outils.

SDK Mémoire Engram : Mémoire basée sur des graphes pour agents IA avec modèles locaux
Engram Memory SDK est un système de mémoire graphique open-source pour les agents d'IA qui fonctionne avec des modèles locaux via LiteLLM. Il ne nécessite qu'un seul appel LLM pour l'ingestion, puis utilise la recherche vectorielle et le parcours de graphe pour la récupération sans aucun coût LLM continu.

Relay : Un outil pour transférer les sessions de code Claude à d'autres agents IA
Relay est un binaire Rust qui extrait le contexte de session de Claude Code—y compris l'historique des conversations, les appels d'outils, les erreurs et l'état git—et le transfère à d'autres agents d'IA comme Codex ou Gemini lorsque les limites de débit sont atteintes. Il prend en charge 8 agents et peut être installé via GitHub ou npm.