Agent-Frameworks verschwenden pro Sitzung über 350.000 Token durch erneutes Senden statischer Dateien.

Benchmark-Ergebnisse zum Token-Verschwendung
Messungen auf einem lokalen Qwen 3.5 122B-Setup ergaben, dass Agent-Frameworks pro Sitzung mehr als 350.000 Token verschwenden, indem sie statische Dateien wiederholt erneut senden. Die Quelle beschreibt diese Zahlen als "unrealistisch".
Optimierungsansatz
Es wurde ein Compile-Time-Ansatz entdeckt, der den Abfragekontext von 1.373 Token auf nur 73 Token reduziert. Dies entspricht einer Reduzierung der Token-Nutzung um 95 % für diesen spezifischen Kontext.
Der Benchmark ergab auch, dass eine naive JSON-Konvertierung das Problem um 30 % verschlimmert und die Token-Verschwendung über die Basiswerte hinaus erhöht.
Technischer Kontext
Agent-Frameworks enthalten typischerweise System-Prompts, Werkzeugdefinitionen und andere Konfigurationsdaten, die über mehrere Interaktionen innerhalb einer Sitzung statisch bleiben. Wenn diese Daten mit jeder Abfrage erneut gesendet werden, verbrauchen sie Token, ohne dem Modell neue Informationen zu liefern. Dies ist besonders kostspielig bei großen Modellen wie Qwen 3.5 122B, wo die Token-Verarbeitung sowohl die Leistung als auch die Kosten direkt beeinflusst.
Der Compile-Time-Ansatz beinhaltet wahrscheinlich die Vorverarbeitung statischer Elemente, sodass sie referenziert statt erneut gesendet werden, ähnlich wie moderne Webanwendungen statische Assets zwischenspeichern. Für Entwickler, die mit KI-Coding-Agenten arbeiten, kann die Reduzierung dieses Overheads die Antwortzeiten erheblich verbessern und die Betriebskosten senken.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Verwendung von Claude Code zur Wiederbelebung aufgegebener persönlicher Projekte: eine praktische Anleitung
Matthew Brunelle teilt, wie er Claude Code (mit Opus 4.6) nutzte, um ein eingestelltes YouTube-Music-zu-OpenSubsonic-API-Shim-Projekt wiederzubeleben, komplett mit Einrichtungsschritten, Prompts und Workflow-Tipps.

KI-basierte Codierungssitzungskosten mit grafischer Code-Indizierung um 90 % senken
Ein Entwickler hat eine lokale Graphdatenbank erstellt, die eine Codebasis mithilfe von LLM-generierten Zusammenfassungen indiziert. Dadurch sinken die Kosten für Claude Code-Sitzungen von 6–10 Dollar auf Centbeträge, da redundante Datei-Neuladevorgänge vermieden werden.

Reddit-Nutzer experimentiert mit fehlertoleranten Coding-Agenten, um Wiederholungsschleifen zu durchbrechen
Ein Entwickler auf r/LocalLLaMA beschreibt Experimente mit Coding-Agents, die aus Fehlern lernen, indem sie vereinfachte Ursachen speichern und Lösungen zuordnen, um repetitive Fehlerschleifen zu reduzieren.

Startup-Buchhalter: Kostenlose Claude-Fähigkeit für die Geschäftsverfolgung kleiner Unternehmen
Startup Bookkeeper ist eine Open-Source-Claude-AI-Fähigkeit, die bootstrapped Gründern hilft, Ausgaben zu verfolgen, indem sie Transaktionen aus einfachen englischen Beschreibungen kategorisiert, Quittungsfotos mit OCR verarbeitet und Dashboards oder Gewinn- und Verlustrechnungen erstellt.