Kontextqualitätsverschlechterung bei KI-Agenten: Halluzinationsraten steigen mit der Token-Anzahl

✍️ OpenClawRadar📅 Veröffentlicht: 28. März 2026🔗 Source
Kontextqualitätsverschlechterung bei KI-Agenten: Halluzinationsraten steigen mit der Token-Anzahl
Ad

Ergebnisse der Kontextfenster-Leistungstests

Ein Entwickler testete die Qualitätsverschlechterung des Kontexts bei verschiedenen Token-Zahlen in KI-Agenten und deckte dabei erhebliche Leistungsprobleme mit zunehmender Kontextgröße auf.

Wichtige Erkenntnisse aus den Tests

Die Tests maßen mehrere kritische Metriken:

  • Halluzinationsraten nach Kontextgröße:
    • 10.000 Tokens: ~3 %
    • 50.000 Tokens: ~11 %
    • 200.000 Tokens: ~28 %
    • 1 Mio. Tokens: unklar, aber der Trend zeigt zunehmende Verschlechterung
  • Erinnerungsgenauigkeit: Kein getestetes Modell (einschließlich GPT-4, Claude oder lokaler Modelle) erreichte 90 % Erinnerungsgenauigkeit für Informationen aus den ersten 10 Interaktionen, sobald der Kontext 50.000 Tokens überschritt.
  • Token-Effizienz: Bei 200.000 Tokens sinkt der Prozentsatz des Kontexts, der tatsächlich für die aktuelle Anfrage relevant ist, bei den meisten Agenten-Aufgaben unter 12 %, was bedeutet, dass etwa 188.000 Tokens Rauschen hinzufügen, das das Modell berücksichtigen muss.
Ad

Problemanalyse

Das Problem scheint eher Aufmerksamkeitsmangel als Vergessen zu sein. Früher Kontext konkurriert mit jüngerem Kontext, wobei jüngerer Kontext aufgrund höherer Positionsrelevanz meist gewinnt. Dies führt dazu, dass früh in Sitzungen festgelegte Einschränkungen (wie "PostgreSQL verwenden, keine ORMs") mit zunehmendem Kontext fortschreitend verwässert werden.

Bis zur 89. Interaktion mit 200.000 Tokens ist die Aufmerksamkeit des Modells so über den Kontext verteilt, dass frühe Einschränkungen effektiv verschwinden.

Aktuelle Lösungen und Einschränkungen

Viele Entwickler fügen Vektordatenbanken hinzu, um "relevante" Erinnerungen abzurufen, was etwas hilft. Dieser Ansatz ruft jedoch semantisch ähnliche Inhalte ab, nicht das, was der Agent für korrektes Schlussfolgern benötigt. Beispielsweise ist "PostgreSQL verwenden" nicht semantisch ähnlich zu "schreibe mir einen Login-Endpunkt", obwohl es für die korrekte Ausführung im Kontext sein muss.

Der Entwickler sucht Feedback, ob diese Erkenntnisse mit Produktionserfahrungen übereinstimmen und welche Ansätze sich bei anderen tatsächlich bewährt haben.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken
Nachrichten

Warum OpenClaw nicht reagiert: Nutzer äußern Bedenken

OpenClaw-Nutzer haben Probleme mit nicht reaktionsschnellen KI-Coding-Agenten. Die Diskussion auf Reddit beleuchtet mögliche Ursachen und Nutzerfeedback.

OpenClawRadar
Mikrons 200 Milliarden Dollar Investition zur Überwindung von KI-Speicherengpässen.
Nachrichten

Mikrons 200 Milliarden Dollar Investition zur Überwindung von KI-Speicherengpässen.

Micron verpflichtet sich zu einer Investition von 200 Milliarden Dollar zur Überwindung von Engpässen in der KI-Speicherkapazität und zielt darauf ab, die KI-Verarbeitungsfähigkeiten zu verbessern.

OpenClawRadar
Stanford CS 25 Transformers-Kurs öffnet für die Öffentlichkeit mit Live-Streaming
Nachrichten

Stanford CS 25 Transformers-Kurs öffnet für die Öffentlichkeit mit Live-Streaming

Der CS 25 Transformers-Seminar von Stanford ist jetzt für die Öffentlichkeit zugänglich. Die Vorlesungen beginnen am 23. Januar 2025 um 16:30-17:50 Uhr PDT und sind persönlich im Skilling Auditorium oder über Zoom verfügbar, wobei Aufzeichnungen online veröffentlicht werden.

OpenClawRadar
Lokale vs. Cloud-Modelle: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark bei schwerer Code-Generierung
Nachrichten

Lokale vs. Cloud-Modelle: Qwen-3.6-27B, Gemma-4-31B, Claude Haiku, Codex-Spark bei schwerer Code-Generierung

Ein Benutzer testete Qwen-3.6-27B (q4_k_m) lokal auf einer RTX 5080 gegen die API-basierten Modelle Gemma-4-31B, Claude Haiku 4.5 und Codex-Spark bei einer komplexen Code-Aufgabe. Nur Codex-Spark lieferte vollständigen Code (aber mit Importfehlern); alle anderen scheiterten teilweise. Kosten: Gemma verbrauchte 0,112 $ für 803k Eingabe-Tokens.

OpenClawRadar