Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.
Ad

Kontextkomprimierungssystem für KI-Agenten

Ein Entwickler auf r/ClaudeAI hat eine Lösung für das Problem geteilt, dass KI-Agenten nach der Gesprächskompaktierung den Kontext verlieren. Das System verwendet eine Dual-Modell-Architektur, bei der ein kostengünstiges kleines Modell (das sogenannte "Unterbewusstsein") kontinuierlich im Hintergrund den Gesprächsverlauf komprimiert.

Architekturdetails

Das System besteht aus vier Ebenen:

  • Narrative Zusammenfassung (~1K Token)
  • Komprimierte Fakten
  • Semantisch abgerufene wörtliche Zitate
  • Rohdaten der letzten Gesprächsrunden

Das Hauptmodell ("Bewusstsein") erhält einen kuratierten Kontext von etwa 35K Token mit derselben Informationsdichte, die normalerweise 120K Token des rohen Verlaufs erfordern würde. Das Hauptmodell liest einen zusammenhängenden Zeitstrahl und weiß nicht, dass das Gedächtnissystem existiert.

Ad

Leistungsergebnisse

Der Entwickler simulierte 260 Gesprächsrunden über verschiedene Konversationstypen hinweg. Bei längerfristigen Projektarbeiten (beginnend mit intensiver Recherche und allmählichem Übergang zu schnellen Austauschen, während das Modell die Domäne lernt) reduziert das System den Token-Verbrauch ungefähr um die Hälfte.

Entwicklungswerkzeuge

Das System wurde mit Claude Code für die Simulation und Claude.ai in der Beratungs- und Forschungsphase erstellt. Der Entwickler sucht nach anderen, die versucht haben, ein kleineres Modell zur Verwaltung des Kontexts für ein größeres Modell zu nutzen oder andere Lösungen für das Kompaktierungsproblem gefunden haben.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch