Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.

Kontextkomprimierungssystem für KI-Agenten
Ein Entwickler auf r/ClaudeAI hat eine Lösung für das Problem geteilt, dass KI-Agenten nach der Gesprächskompaktierung den Kontext verlieren. Das System verwendet eine Dual-Modell-Architektur, bei der ein kostengünstiges kleines Modell (das sogenannte "Unterbewusstsein") kontinuierlich im Hintergrund den Gesprächsverlauf komprimiert.
Architekturdetails
Das System besteht aus vier Ebenen:
- Narrative Zusammenfassung (~1K Token)
- Komprimierte Fakten
- Semantisch abgerufene wörtliche Zitate
- Rohdaten der letzten Gesprächsrunden
Das Hauptmodell ("Bewusstsein") erhält einen kuratierten Kontext von etwa 35K Token mit derselben Informationsdichte, die normalerweise 120K Token des rohen Verlaufs erfordern würde. Das Hauptmodell liest einen zusammenhängenden Zeitstrahl und weiß nicht, dass das Gedächtnissystem existiert.
Leistungsergebnisse
Der Entwickler simulierte 260 Gesprächsrunden über verschiedene Konversationstypen hinweg. Bei längerfristigen Projektarbeiten (beginnend mit intensiver Recherche und allmählichem Übergang zu schnellen Austauschen, während das Modell die Domäne lernt) reduziert das System den Token-Verbrauch ungefähr um die Hälfte.
Entwicklungswerkzeuge
Das System wurde mit Claude Code für die Simulation und Claude.ai in der Beratungs- und Forschungsphase erstellt. Der Entwickler sucht nach anderen, die versucht haben, ein kleineres Modell zur Verwaltung des Kontexts für ein größeres Modell zu nutzen oder andere Lösungen für das Kompaktierungsproblem gefunden haben.
📖 Read the full source: r/ClaudeAI
👀 Siehe auch

OpenClaw PARA-Organisationsfähigkeit sortiert Dateien automatisch in Projekte, Bereiche, Ressourcen und Archive
Ein Entwickler hat eine OpenClaw-Fähigkeit erstellt, die die PARA-Methode (Projekte, Bereiche, Ressourcen, Archive) zur Dateiorganisation durchsetzt und Inhalte automatisch sortiert, anstatt alles im Hauptverzeichnis abzulegen.

Solo-Entwickler nutzt Claude + Blender MCP, um App-Store-Video in 90 Minuten zu erstellen
Reddit-Benutzer Positive_Camel2086 beschreibt detailliert, wie sie Claude mit dem Blender MCP-Server verwendet haben, um ein 10-sekündiges vertikales Startvideo zu generieren, wobei Kamerarigging, Materialien, Nebel und Partikelsysteme durch konversationelle Eingabeaufforderungen automatisiert wurden.

Toroidal Logit Bias: Einfacher Inferenz-Trick reduziert Halluzinationen um 40%
Eine neue Methode bildet Tokens auf einen Torus ab und verstaerkt nahe Logits, reduziert Fehler ohne Fine-Tuning oder RAG.

Beacon: Open-Source-Endpunkt-Telemetrie für lokale KI-Agenten
Beacon erfasst lokale KI-Agent-Aktivitäten (Claude Code, Codex CLI, Cursor usw.) und normalisiert sie in Endpunkt-Ereignisse zur Überprüfung oder SIEM-Weiterleitung über Wazuh, Elastic, Splunk HEC.