Kontextqualitätsverschlechterung bei KI-Agenten: Halluzinationsraten steigen mit der Token-Anzahl

Ergebnisse der Kontextfenster-Leistungstests
Ein Entwickler testete die Qualitätsverschlechterung des Kontexts bei verschiedenen Token-Zahlen in KI-Agenten und deckte dabei erhebliche Leistungsprobleme mit zunehmender Kontextgröße auf.
Wichtige Erkenntnisse aus den Tests
Die Tests maßen mehrere kritische Metriken:
- Halluzinationsraten nach Kontextgröße:
- 10.000 Tokens: ~3 %
- 50.000 Tokens: ~11 %
- 200.000 Tokens: ~28 %
- 1 Mio. Tokens: unklar, aber der Trend zeigt zunehmende Verschlechterung
- Erinnerungsgenauigkeit: Kein getestetes Modell (einschließlich GPT-4, Claude oder lokaler Modelle) erreichte 90 % Erinnerungsgenauigkeit für Informationen aus den ersten 10 Interaktionen, sobald der Kontext 50.000 Tokens überschritt.
- Token-Effizienz: Bei 200.000 Tokens sinkt der Prozentsatz des Kontexts, der tatsächlich für die aktuelle Anfrage relevant ist, bei den meisten Agenten-Aufgaben unter 12 %, was bedeutet, dass etwa 188.000 Tokens Rauschen hinzufügen, das das Modell berücksichtigen muss.
Problemanalyse
Das Problem scheint eher Aufmerksamkeitsmangel als Vergessen zu sein. Früher Kontext konkurriert mit jüngerem Kontext, wobei jüngerer Kontext aufgrund höherer Positionsrelevanz meist gewinnt. Dies führt dazu, dass früh in Sitzungen festgelegte Einschränkungen (wie "PostgreSQL verwenden, keine ORMs") mit zunehmendem Kontext fortschreitend verwässert werden.
Bis zur 89. Interaktion mit 200.000 Tokens ist die Aufmerksamkeit des Modells so über den Kontext verteilt, dass frühe Einschränkungen effektiv verschwinden.
Aktuelle Lösungen und Einschränkungen
Viele Entwickler fügen Vektordatenbanken hinzu, um "relevante" Erinnerungen abzurufen, was etwas hilft. Dieser Ansatz ruft jedoch semantisch ähnliche Inhalte ab, nicht das, was der Agent für korrektes Schlussfolgern benötigt. Beispielsweise ist "PostgreSQL verwenden" nicht semantisch ähnlich zu "schreibe mir einen Login-Endpunkt", obwohl es für die korrekte Ausführung im Kontext sein muss.
Der Entwickler sucht Feedback, ob diese Erkenntnisse mit Produktionserfahrungen übereinstimmen und welche Ansätze sich bei anderen tatsächlich bewährt haben.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken
OpenClaw-Nutzer haben Probleme mit nicht reaktionsschnellen KI-Coding-Agenten. Die Diskussion auf Reddit beleuchtet mögliche Ursachen und Nutzerfeedback.

Mikrons 200 Milliarden Dollar Investition zur Überwindung von KI-Speicherengpässen.
Micron verpflichtet sich zu einer Investition von 200 Milliarden Dollar zur Überwindung von Engpässen in der KI-Speicherkapazität und zielt darauf ab, die KI-Verarbeitungsfähigkeiten zu verbessern.

Stanford CS 25 Transformers-Kurs öffnet für die Öffentlichkeit mit Live-Streaming
Der CS 25 Transformers-Seminar von Stanford ist jetzt für die Öffentlichkeit zugänglich. Die Vorlesungen beginnen am 23. Januar 2025 um 16:30-17:50 Uhr PDT und sind persönlich im Skilling Auditorium oder über Zoom verfügbar, wobei Aufzeichnungen online veröffentlicht werden.

Lokale vs. Cloud-Modelle: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark bei schwerer Code-Generierung
Ein Benutzer testete Qwen-3.6-27B (q4_k_m) lokal auf einer RTX 5080 gegen die API-basierten Modelle Gemma-4-31B, Claude Haiku 4.5 und Codex-Spark bei einer komplexen Code-Aufgabe. Nur Codex-Spark lieferte vollständigen Code (aber mit Importfehlern); alle anderen scheiterten teilweise. Kosten: Gemma verbrauchte 0,112 $ für 803k Eingabe-Tokens.