Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.

Kontextkomprimierungssystem für KI-Agenten
Ein Entwickler auf r/ClaudeAI hat eine Lösung für das Problem geteilt, dass KI-Agenten nach der Gesprächskompaktierung den Kontext verlieren. Das System verwendet eine Dual-Modell-Architektur, bei der ein kostengünstiges kleines Modell (das sogenannte "Unterbewusstsein") kontinuierlich im Hintergrund den Gesprächsverlauf komprimiert.
Architekturdetails
Das System besteht aus vier Ebenen:
- Narrative Zusammenfassung (~1K Token)
- Komprimierte Fakten
- Semantisch abgerufene wörtliche Zitate
- Rohdaten der letzten Gesprächsrunden
Das Hauptmodell ("Bewusstsein") erhält einen kuratierten Kontext von etwa 35K Token mit derselben Informationsdichte, die normalerweise 120K Token des rohen Verlaufs erfordern würde. Das Hauptmodell liest einen zusammenhängenden Zeitstrahl und weiß nicht, dass das Gedächtnissystem existiert.
Leistungsergebnisse
Der Entwickler simulierte 260 Gesprächsrunden über verschiedene Konversationstypen hinweg. Bei längerfristigen Projektarbeiten (beginnend mit intensiver Recherche und allmählichem Übergang zu schnellen Austauschen, während das Modell die Domäne lernt) reduziert das System den Token-Verbrauch ungefähr um die Hälfte.
Entwicklungswerkzeuge
Das System wurde mit Claude Code für die Simulation und Claude.ai in der Beratungs- und Forschungsphase erstellt. Der Entwickler sucht nach anderen, die versucht haben, ein kleineres Modell zur Verwaltung des Kontexts für ein größeres Modell zu nutzen oder andere Lösungen für das Kompaktierungsproblem gefunden haben.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

Agent Browser Shield: Kostenlose OpenClaw-Erweiterung blockiert Prompt-Injection & Dark Patterns
PixieBrix veröffentlicht Agent Browser Shield, eine kostenlose, quelloffene Browsererweiterung für OpenClaw, die Prompt-Injection, Dark Patterns und Kontextverschmutzung blockiert und gleichzeitig den Tokenverbrauch senkt.

Open-Source-Solo-RPG-Engine nutzt drei Claude-Instanzen für Parsing, Erzählung und Steuerung
EdgeTales ist eine Open-Source-Text-basierte Solo-RPG-Engine, bei der Würfelmechaniken die Ergebnisse bestimmen und die Claude-KI atmosphärische Prosa generiert. Das System verwendet drei Claude-Instanzen in einer Pipeline: Brain (Haiku) zum Parsen von Eingaben in JSON, Narrator (Sonnet) zum Schreiben von Prosa und Director (Haiku) für asynchrone Szenenanalyse.

Portables Ingenieursystem für Claude Code mit Hooks, spezialisierten Agenten und Selbstverbesserung
Ein Entwickler baute ein portables Engineering-System, das in ~/.claude/ lebt und automatisch auf jedes Projekt angewendet wird. Es umfasst eine 650-zeilige Verfassung, deterministische Hooks, die gefährliche Befehle blockieren, drei spezialisierte Agenten und einen sich selbst verbessernden Compound-Engineering-Ansatz.

OpenGalatea MCP-Server verbindet Claude mit Prusa 3D-Druckern
OpenGalatea ist ein Open-Source-MCP-Server, der es Claude ermöglicht, Prusa-3D-Drucker über PrusaLink zu steuern, sodass natürliche Sprachbefehle zum Durchsuchen von Printables.com, zum Schneiden von Modellen und zum Verwalten von Druckaufträgen verwendet werden können.