Cursor & Claude Code: Überladener Kontext killt KI-Denken

Ein Entwickler auf r/LocalLLaMA hat seine API-Logs und Prompt-Payloads geprüft, nachdem er bemerkt hatte, dass die Token-Nutzung anstieg und die Agentenausgabe nach etwa 20 Iterationen nachließ. Seine Schlussfolgerung: Die Modelle werden nicht dümmer; sie ersticken an ihren eigenen überladenen Kontextfenstern.

Die vier strukturellen Fehler

Nachdem er untersucht hatte, was Cursor und Claude Code in einem Repository mit über 10.000 Zeilen tatsächlich tun, identifizierte der Autor vier Muster:

Blinde Erkundung: Der Agent durchsucht rekursiv mit grep und legt etwa 40 verschiedene Dateien in den Kontext, nur um eine einzige Hilfsfunktion zu finden. Oft übersieht er eine vorhandene Komponente und halluziniert ein Duplikat von Grund auf.
Rohe Aufnahme: Eine 2.000-zeilige Datei wird in den Prompt geladen, um ein 5-zeiliges Interface zu aktualisieren. Verschwendet massiv Kontext-Token.
Tool-Durchfall: Ausführliche Testlogs und riesige MCP-Tool-Definitionen verbrauchen rund 30k Token, bevor das Modell ein einziges Code-Token generiert.
Goldfisch-Gedächtnis: Jede Sitzung beginnt von vorn – kein Projektbewusstsein – so dass dieselben Dateien immer wieder neu gelesen werden.

Kipppunkt bei 80% Kontext

Sobald der Kontext zu etwa 80% mit Rauschen gefüllt ist, verschlechtert sich der Aufmerksamkeitsmechanismus des Modells drastisch. Der IQ sinkt sichtbar auf Zimmertemperatur, und es beginnt, die Architektur zu zerstören. Standard-Chunking-RAG behebt dies nicht, da es für Logik ungeeignet ist – der Agent bleibt blind für die Codebasis-Struktur, bis er Token für das Lesen von Rohtext verbrennt.

Vorgeschlagene Lösung: AST oder Graph-DB

Der Autor fordert einen Open-Source-Agenten, der Code in einen AST oder eine Graphdatenbank parst, bevor er Kontext verbraucht, damit er die Struktur versteht, ohne Token für Rohtext zu verschwenden. Dies würde architektonische Spaghetti verhindern, die pro eingesparter Stunde Tipparbeit 5 Stunden Korrektur kosten.