Kontextqualitätsverschlechterung: Halluzinationsrate von 3% auf 28%

Ergebnisse der Kontextfenster-Leistungstests

Ein Entwickler testete die Qualitätsverschlechterung des Kontexts bei verschiedenen Token-Zahlen in KI-Agenten und deckte dabei erhebliche Leistungsprobleme mit zunehmender Kontextgröße auf.

Wichtige Erkenntnisse aus den Tests

Die Tests maßen mehrere kritische Metriken:

Halluzinationsraten nach Kontextgröße:
- 10.000 Tokens: ~3 %
- 50.000 Tokens: ~11 %
- 200.000 Tokens: ~28 %
- 1 Mio. Tokens: unklar, aber der Trend zeigt zunehmende Verschlechterung
Erinnerungsgenauigkeit: Kein getestetes Modell (einschließlich GPT-4, Claude oder lokaler Modelle) erreichte 90 % Erinnerungsgenauigkeit für Informationen aus den ersten 10 Interaktionen, sobald der Kontext 50.000 Tokens überschritt.
Token-Effizienz: Bei 200.000 Tokens sinkt der Prozentsatz des Kontexts, der tatsächlich für die aktuelle Anfrage relevant ist, bei den meisten Agenten-Aufgaben unter 12 %, was bedeutet, dass etwa 188.000 Tokens Rauschen hinzufügen, das das Modell berücksichtigen muss.

Problemanalyse

Das Problem scheint eher Aufmerksamkeitsmangel als Vergessen zu sein. Früher Kontext konkurriert mit jüngerem Kontext, wobei jüngerer Kontext aufgrund höherer Positionsrelevanz meist gewinnt. Dies führt dazu, dass früh in Sitzungen festgelegte Einschränkungen (wie "PostgreSQL verwenden, keine ORMs") mit zunehmendem Kontext fortschreitend verwässert werden.

Bis zur 89. Interaktion mit 200.000 Tokens ist die Aufmerksamkeit des Modells so über den Kontext verteilt, dass frühe Einschränkungen effektiv verschwinden.

Aktuelle Lösungen und Einschränkungen

Viele Entwickler fügen Vektordatenbanken hinzu, um "relevante" Erinnerungen abzurufen, was etwas hilft. Dieser Ansatz ruft jedoch semantisch ähnliche Inhalte ab, nicht das, was der Agent für korrektes Schlussfolgern benötigt. Beispielsweise ist "PostgreSQL verwenden" nicht semantisch ähnlich zu "schreibe mir einen Login-Endpunkt", obwohl es für die korrekte Ausführung im Kontext sein muss.

Der Entwickler sucht Feedback, ob diese Erkenntnisse mit Produktionserfahrungen übereinstimmen und welche Ansätze sich bei anderen tatsächlich bewährt haben.

📖 Read the full source: r/LocalLLaMA

Kontextqualitätsverschlechterung bei KI-Agenten: Halluzinationsraten steigen mit der Token-Anzahl

Ergebnisse der Kontextfenster-Leistungstests

Wichtige Erkenntnisse aus den Tests

Problemanalyse

Aktuelle Lösungen und Einschränkungen

👀 Siehe auch

Der Open Claw Overnight Test: Ein Fortschritt in der KI-Automatisierung

Anthropic setzt die Änderung der Claude Agent SDK-Gutschriften nach Nutzerfeedback aus

Reddit-Benutzer schlägt Zeitstempelfunktion für Claude vor, um zeitliche Wahrnehmungslücke zu adressieren

Pentagon verspricht nach Anthropic-Aus keine einzigen KI-Anbieter mehr, schließt Deals mit AWS, Google, Microsoft, NVIDIA, OpenAI, Oracle, SpaceX