Mönch: Eine Fähigkeit, die die Erzählung des Agenten stumm schaltet, um Kontext und Tokens zu sparen

Ein Reddit-Benutzer hat monk entwickelt, eine Fähigkeit, die KI-Agenten leise arbeiten lässt – indem Erzählungen, Einleitungen, Nachworte und Fortschrittskommentare aus den Antworten entfernt werden und nur die Ergebnisse erhalten bleiben. Der Effekt ist eine geschätzte Reduzierung der Ausgabe-Token pro Runde um 54 % (47 % bei Code, 65 % bei Chat, 54 % bei Recherche) sowie kumulative Kontexteinsparungen, die mit der Sitzungslänge wachsen.
Wie es funktioniert
monk unterdrückt alle „Ich mache jetzt X…“-Erzählungen, Aufgabenlisten-Widgets und Statusmeldungen. Der Agent gibt nur die standardmäßigen Ergebnisse am Ende jedes Schrittes aus. Die Fähigkeit ist auf GitHub verfügbar: github.com/marpxxx/skillz/tree/main/monk.
Benchmark-Ergebnisse
Tests verwendeten 30 Aufgaben (10 pro Kategorie: Code, Chat, Recherche) mit approximierter Ausführlichkeit über den cl100k_base-Tokenizer von OpenAI. Die wichtigsten Zahlen:
- Einzelrunden-Ausgabeeinsparungen: Code 47 %, Chat 65 %, Recherche 54 %, Gesamt 54 %.
- Kontextkapazitätssteigerung (kumulativ): Bei ~20 Runden (typische Sitzung): +13 % (Code), +14 % (Chat), +20 % (Recherche). Bei 100 Runden: +29 % (Code), +36 % (Chat), +39 % (Recherche).
- API-Kosten (Claude Sonnet 4.6, Prompt-Caching): ~19 % Kostenersparnis bei einer 10-Runden-Sitzung.
Der Test zählte keine Token, die in Tool-Use-Widgets oder Statusmeldungen unterdrückt wurden, daher könnten die realen Einsparungen höher sein.
Einschränkungen
Die ausführlichen Beispiele sind KI-generierte Näherungswerte. Ein gut abgestimmter Basis-Agent könnte bereits knapper sein; ein ausführlicher mit erzählungsreichen Fähigkeiten könnte mehr produzieren. Der Tokenizer ist der cl100k_base von OpenAI, nicht der von Anthropic. Die Annahme eines 8k-System-Prompts ist konservativ (viele Setups haben 15–30k). Die Ergebnisse sind Richtwerte, keine Produktions-Benchmarks.
Für Entwickler, die die Echtzeit-Ausgabe des Agenten selten lesen, kann diese Fähigkeit Rauschen reduzieren und das Kontextfenster deutlich erweitern.
📖 Vollständige Quelle lesen: r/ClaudeAI
👀 Siehe auch

Solo-Entwickler baut in 3 Wochen plattformübergreifenden Desktop-KI-Agenten mit mobiler Fernsteuerung, ausgeliefert in über 40 Länder
Ein Solo-Entwickler hat Skales entwickelt, einen nativen Desktop-KI-Agenten mit über 139 Tools und einer mobilen Begleit-App zur Fernsteuerung – alles in drei Wochen mit Claude. Die App läuft auf macOS, Windows und Linux, ist lokal und kostenlos und hat bereits aktive Nutzer in über 40 Ländern.

Lern-Kit: Ein Claude-Code-Plugin für die Einarbeitung und Erkundung von Codebasen
Learning-kit ist ein kostenloses Claude Code-Plugin, das Repositorys analysiert, um strukturierte Lernpläne und interaktive Tutorials zu generieren. Es hilft Entwicklern, unbekannte Codebasen zu verstehen, bevor sie Änderungen vornehmen, mit konfigurierbaren Durchsetzungsmodi und Fortschrittsverfolgung.

Einführung in Xrouter: Ein intelligenter hybrider LLM-Router zur Optimierung von Kosten und Leistung.
Entdecken Sie Xrouter, eine Open-Source-Kreation, die lokale mit Cloud-Inferenz dynamisch integriert und darauf abzielt, die KI-Kosten zu senken, während die Effizienz gesteigert wird.

iai-mcp: Lokaler Daemon verleiht Claude dauerhaften Speicher über Sitzungen hinweg mit 99% Rückruf
iai-mcp ist ein Open-Source-Local-Daemon, der jedes Claude-Gespräch erfasst, es in drei Speicherstufen organisiert und bei neuen Sitzungen den Kontext zurückgibt. Er erzielt >99% wörtliche Wiederholung, Abruf unter 100ms und Kosten unter 3.000 Tokens zu Sitzungsbeginn.