Agent-Frameworks verschwenden pro Sitzung über 350.000 Token durch erneutes Senden statischer Dateien.

✍️ OpenClawRadar📅 Veröffentlicht: 13. April 2026🔗 Source

Benchmark-Ergebnisse zum Token-Verschwendung

Messungen auf einem lokalen Qwen 3.5 122B-Setup ergaben, dass Agent-Frameworks pro Sitzung mehr als 350.000 Token verschwenden, indem sie statische Dateien wiederholt erneut senden. Die Quelle beschreibt diese Zahlen als "unrealistisch".

Optimierungsansatz

Es wurde ein Compile-Time-Ansatz entdeckt, der den Abfragekontext von 1.373 Token auf nur 73 Token reduziert. Dies entspricht einer Reduzierung der Token-Nutzung um 95 % für diesen spezifischen Kontext.

Der Benchmark ergab auch, dass eine naive JSON-Konvertierung das Problem um 30 % verschlimmert und die Token-Verschwendung über die Basiswerte hinaus erhöht.

Technischer Kontext

Agent-Frameworks enthalten typischerweise System-Prompts, Werkzeugdefinitionen und andere Konfigurationsdaten, die über mehrere Interaktionen innerhalb einer Sitzung statisch bleiben. Wenn diese Daten mit jeder Abfrage erneut gesendet werden, verbrauchen sie Token, ohne dem Modell neue Informationen zu liefern. Dies ist besonders kostspielig bei großen Modellen wie Qwen 3.5 122B, wo die Token-Verarbeitung sowohl die Leistung als auch die Kosten direkt beeinflusst.

Der Compile-Time-Ansatz beinhaltet wahrscheinlich die Vorverarbeitung statischer Elemente, sodass sie referenziert statt erneut gesendet werden, ähnlich wie moderne Webanwendungen statische Assets zwischenspeichern. Für Entwickler, die mit KI-Coding-Agenten arbeiten, kann die Reduzierung dieses Overheads die Antwortzeiten erheblich verbessern und die Betriebskosten senken.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Werkzeuge

Fennara: Godot Plugin + MCP für KI-Agenten mit iterativer Rückkopplungsschleife

Fennara ist ein Godot-Plugin und MCP-Server, der KI-Agenten Skriptdiagnosen, Szenenvalidierung, Laufzeitfehler, Knoteninformationen, Screenshots und semantische Suchergebnisse nach jeder Änderung liefert – und so eine engere Rückkopplungsschleife als Einmalbefehle ermöglicht.

21. Juni 2026, 00:15 UTC

OpenClawRadar

Werkzeuge

Axe: Ein 12-MB-CLI für Single-Purpose-LLM-Agenten

Axe ist eine schlanke Go-Binärdatei, die fokussierte KI-Agenten ausführt, die in TOML-Dateien definiert sind. Es behandelt Agenten wie Unix-Programme und unterstützt stdin-Piping, Sub-Agenten-Delegation und Multi-Provider-LLM-Integration.

13. März 2026, 02:45 UTC

OpenClawRadar

Werkzeuge

Claude VS Code-Erweiterung: "Reasoning Effort"-Schieberegler sendet inkonsistente Werte

Der Reasoning-Effort-Schieberegler in der Claude VS Code-Erweiterung sendet inkonsistente numerische Werte an das Modell, mit einer nicht-monotonen Zuordnung, bei der das Verschieben des Reglers nach oben eine niedrigere Zahl senden kann.

20. Apr. 2026, 11:45 UTC

OpenClawRadar

Werkzeuge

Fragen Sie Ihren Jira-Sprint über Claude MCP ab: Sofortiger Status, nicht zugewiesene Probleme und blockierte Elemente

Ein Reddit-Benutzer verband Jira mit Claude über MCP, stellte dann auf Deutsch verfasste Fragen zu seinem Sprint und erhielt sofort übersichtliche Tabellen — ohne durch Boards klicken zu müssen.

8. Mai 2026, 04:20 UTC

OpenClawRadar