Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.

✍️ OpenClawRadar📅 Veröffentlicht: 9. März 2026🔗 Source
Die Dual-Modell-Architektur reduziert den Token-Verbrauch für lange Gespräche um die Hälfte.
Ad

Kontextkomprimierungssystem für KI-Agenten

Ein Entwickler auf r/ClaudeAI hat eine Lösung für das Problem geteilt, dass KI-Agenten nach der Gesprächskompaktierung den Kontext verlieren. Das System verwendet eine Dual-Modell-Architektur, bei der ein kostengünstiges kleines Modell (das sogenannte "Unterbewusstsein") kontinuierlich im Hintergrund den Gesprächsverlauf komprimiert.

Architekturdetails

Das System besteht aus vier Ebenen:

  • Narrative Zusammenfassung (~1K Token)
  • Komprimierte Fakten
  • Semantisch abgerufene wörtliche Zitate
  • Rohdaten der letzten Gesprächsrunden

Das Hauptmodell ("Bewusstsein") erhält einen kuratierten Kontext von etwa 35K Token mit derselben Informationsdichte, die normalerweise 120K Token des rohen Verlaufs erfordern würde. Das Hauptmodell liest einen zusammenhängenden Zeitstrahl und weiß nicht, dass das Gedächtnissystem existiert.

Ad

Leistungsergebnisse

Der Entwickler simulierte 260 Gesprächsrunden über verschiedene Konversationstypen hinweg. Bei längerfristigen Projektarbeiten (beginnend mit intensiver Recherche und allmählichem Übergang zu schnellen Austauschen, während das Modell die Domäne lernt) reduziert das System den Token-Verbrauch ungefähr um die Hälfte.

Entwicklungswerkzeuge

Das System wurde mit Claude Code für die Simulation und Claude.ai in der Beratungs- und Forschungsphase erstellt. Der Entwickler sucht nach anderen, die versucht haben, ein kleineres Modell zur Verwaltung des Kontexts für ein größeres Modell zu nutzen oder andere Lösungen für das Kompaktierungsproblem gefunden haben.

📖 Read the full source: r/ClaudeAI

Ad

👀 Siehe auch

Agent Browser Shield: Kostenlose OpenClaw-Erweiterung blockiert Prompt-Injection & Dark Patterns
Werkzeuge

Agent Browser Shield: Kostenlose OpenClaw-Erweiterung blockiert Prompt-Injection & Dark Patterns

PixieBrix veröffentlicht Agent Browser Shield, eine kostenlose, quelloffene Browsererweiterung für OpenClaw, die Prompt-Injection, Dark Patterns und Kontextverschmutzung blockiert und gleichzeitig den Tokenverbrauch senkt.

OpenClawRadar
Open-Source-Solo-RPG-Engine nutzt drei Claude-Instanzen für Parsing, Erzählung und Steuerung
Werkzeuge

Open-Source-Solo-RPG-Engine nutzt drei Claude-Instanzen für Parsing, Erzählung und Steuerung

EdgeTales ist eine Open-Source-Text-basierte Solo-RPG-Engine, bei der Würfelmechaniken die Ergebnisse bestimmen und die Claude-KI atmosphärische Prosa generiert. Das System verwendet drei Claude-Instanzen in einer Pipeline: Brain (Haiku) zum Parsen von Eingaben in JSON, Narrator (Sonnet) zum Schreiben von Prosa und Director (Haiku) für asynchrone Szenenanalyse.

OpenClawRadar
Portables Ingenieursystem für Claude Code mit Hooks, spezialisierten Agenten und Selbstverbesserung
Werkzeuge

Portables Ingenieursystem für Claude Code mit Hooks, spezialisierten Agenten und Selbstverbesserung

Ein Entwickler baute ein portables Engineering-System, das in ~/.claude/ lebt und automatisch auf jedes Projekt angewendet wird. Es umfasst eine 650-zeilige Verfassung, deterministische Hooks, die gefährliche Befehle blockieren, drei spezialisierte Agenten und einen sich selbst verbessernden Compound-Engineering-Ansatz.

OpenClawRadar
OpenGalatea MCP-Server verbindet Claude mit Prusa 3D-Druckern
Werkzeuge

OpenGalatea MCP-Server verbindet Claude mit Prusa 3D-Druckern

OpenGalatea ist ein Open-Source-MCP-Server, der es Claude ermöglicht, Prusa-3D-Drucker über PrusaLink zu steuern, sodass natürliche Sprachbefehle zum Durchsuchen von Printables.com, zum Schneiden von Modellen und zum Verwalten von Druckaufträgen verwendet werden können.

OpenClawRadar