KI-Codierungsagenten haben Schwierigkeiten mit der Kontextverwaltung in großen Codebasen.

Der Engpass bei der Ausführung ist nicht das Problem
Beobachtungen aus der Nutzung echter Codebasen zeigen, dass KI-Codierungsagenten konsequent viel Zeit für die Erkundung statt für die Ausführung aufwenden. Jedes Mal, wenn ein Agent eine neue Aufgabe angeht, macht er 15-20 Tool-Aufrufe für Orientierungsaktivitäten, darunter:
- Durchsuchen von Routen
- Lesen von Middleware
- Überprüfen von Typen
Bis der Agent mit dem Schreiben von Code beginnt, hat er bereits einen erheblichen Teil seines Kontextfensters für Erkundungsarbeit verbraucht.
Beweise aus vereinfachten Ansätzen
Vercel demonstrierte dieses Problem aus der entgegengesetzten Richtung, indem es 80% der Tools von seinem Agenten entfernte und ihm stattdessen Bash-Zugriff gab. Dieser Ansatz führte zu 100% Genauigkeit, was darauf hindeutet, dass die Ausführungsfähigkeit nicht der limitierende Faktor ist.
Ähnlich beweist Pi (der minimale Codierungsagent) denselben Punkt mit nur 4 Tools und einem Systemprompt, der weniger als 1.000 Tokens enthält.
Die eigentliche Herausforderung: Kontextverwaltung
Wenn die Ausführung effektiv gelöst ist, wird das tatsächliche schwierige Problem die Kontextverwaltung. Mehrere Faktoren tragen zu dieser Herausforderung bei:
- Große Codebasen passen in kein aktuelles Kontextfenster
- Lange Aufgaben sammeln Tool-Ausgaben, die frühere Überlegungen aus dem Aufmerksamkeitsfenster drängen
- Dynamische Umgebungen ändern sich zwischen Sitzungen
- Die Forschung zu "Lost in the Middle" zeigt, dass Modelle am besten am Anfang ihres Kontextfensters denken – genau dann, wenn Agenten noch suchen
Der Autor hat eine detailliertere Analyse veröffentlicht, die diese Probleme und ihre Auswirkungen auf die Entwicklung von KI-Codierungsagenten untersucht.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Schiff-Rounds LIFT AI Act: Was Entwickler über den KI-Bildungsgesetzentwurf für K-12 wissen müssen
OpenAI, Google und Microsoft unterstützen den LIFT AI Act, der NSF-Zuschüsse für KI-Literacy-Curricula in K-12, Lehrertraining und Bewertungswerkzeuge bereitstellt.

Claude Cowork-UX-Problem: Dauerhaftes Eingabefeld erzeugt falsche Kontinuitätserwartungen
Ein Nutzer identifiziert ein UX-Problem in Claude Cowork, bei dem das persistente Texteingabefeld Entwurfstext über Aufgabenwechsel hinweg beibehält, aber den Kontext zurücksetzt und Anhänge verliert, was widersprüchliche Signale zur Kontinuität erzeugt.

GitHub Copilot Individual Plan-Änderungen: Anmeldungen pausiert, strengere Limits, Modellanpassungen
GitHub pausiert neue Anmeldungen für Copilot Pro, Pro+ und Studentenpläne, während Nutzungslimits verschärft und Opus-Modelle aus Pro-Plänen entfernt werden. Diese Änderungen reagieren auf gestiegene Rechenanforderungen durch agentische Workflows.

WSJ: CEOs stehen vor einer klaren KI-Entscheidung – Entlassungen oder mehr Arbeit
Das WSJ berichtet, dass CEOs zwischen der Entlassung von Mitarbeitern oder der Zuweisung von mehr Arbeit an sie wählen, da KI-Tools Produktivitätssteigerungen versprechen – 11 Punkte in der HN-Diskussion.