llama.cpp Massives Prompt-Neuverarbeitung mit Coding-Agents: Debugging von KV-Cache und Kontextaustausch

Ein Entwickler auf r/LocalLLaMA hat ein ernstes Performance-Problem mit llama.cpp, wenn er über llama-swap langkontextige Coding-Agenten (opencode + pi.dev) ausführt. Selbst bei sehr ähnlichen Prompts (LCP-Ähnlichkeit oft >0,99) verwirft das System regelmäßig den KV-Cache und verarbeitet über 40k Token neu, was zu einer TTFT von mehreren Minuten führt.
Beobachtetes Verhalten
- Der Kontext wächst auf über 50k Token an.
- Nach mehreren normalen Wiederverwendungen (z.B.
prompt eval time = 473 ms / 19 tokens) fälltn_pastplötzlich auf ~4-5k. - llama.cpp verarbeitet dann den gesamten Prompt neu:
n_tokens = 4750 prompt eval time = 222411 ms / 44016 tokens. - Die Cache-Nutzung erreicht 4676 MiB und überschreitet das konfigurierte Limit (2500 MiB).
Aktuelle Konfiguration
llama-server --ctx-size 150000 --parallel 1 --ctx-checkpoints 32 --cache-ram 2500 --cache-reuse 256 -no-kvu --no-context-shiftVermutete Ursachen
- Cache-Invalidierung aufgrund Überschreitung des
--cache-ram-Limits – das Log zeigt 4676 MiB Nutzung vs. 2500 MiB Limit. - Schlechter KV-Wiederverwendungsmechanismus, wenn sich frühe Prompt-Token ändern (möglicherweise häufige Änderungen durch opencode).
- Unzureichende
--ctx-checkpointsoder--cache-reusefür die Kontextgröße von 150k.
Empfehlungen aus der Community
Der Thread hat bisher wenige Antworten, aber naheliegende erste Schritte sind, --cache-ram auf die typische Nutzung zu erhöhen (z.B. 5000+ MiB) oder --ctx-size zu reduzieren, um unter dem Cache-Limit zu bleiben. Außerdem sollte geprüft werden, ob opencode absichtlich Prompt-Präfixe ändert; wenn ja, könnte das Fixieren des System-Prompts oder die Verwendung eines festen Präfixes die Wiederverwendung verbessern.
Für Entwickler mit ähnlichen Setups: Teilt eure funktionierenden Konfigurationen im Quellthread.
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

11 tiefgründige Claude-Tipps eines täglichen Nutzers seit 18 Monaten
Ein Senior-Entwickler teilt 11 nicht offensichtliche Claude-Tipps nach 18 Monaten täglicher Nutzung, darunter Projects, Custom Styles, Memory, Sonnet 4.6 vs Opus 4.7, Haiku 4.5 für Batch-Arbeiten, Claude Code Subagents und Artifacts, die die API aufrufen.

OpenClaw-Plugin-Minimalismus: Kernwerkzeuge bewältigen 95 % der Aufgaben
Ein Entwickler, der OpenClaw im Produktivbetrieb einsetzt, berichtet, dass das Deaktivieren nicht essenzieller Plugins und das Ersetzen kritischer Plugins durch einfache Skripte zu 40 % schnellerem Start, 60 % geringerem Speicherverbrauch und null abbrechenden Updates über vier Monate führte.

Hilfreiche Tipps aus der OpenClaw-Community: Ein vertiefter Einblick in die Optimierung von KI-Agenten
Entdecken Sie wertvolle Tipps aus der OpenClaw-Community zur Optimierung von KI-Coding-Agenten für bessere Leistung und Effizienz. Diese Einsichten könnten Ihre KI-Projekte revolutionieren.

Jeden MCP-Server bei jeder Eingabeaufforderung zu laden, zerstört leise das Token-Budget
Ein Benutzer mit 5–6 MCP-Servern stellte fest, dass jeder Prompt alle Server lud, was zu massiver Token-Verschwendung führte. Die Implementierung einer Routing-Schicht, die nur die relevanten Server pro Prompt lädt, reduzierte den Token-Verbrauch drastisch und verbesserte die Antwortzeiten.