Das WCY-Format reduziert den Token-Overhead von LLMs um 50–71 % und fügt strukturelle „Ich weiß nicht“-Marker hinzu.

WCY (Watch → Compute → Yield) ist ein zeilenorientiertes Format, das entwickelt wurde, um den LLM-Token-Overhead zu reduzieren und strukturelle Marker für Unsicherheit im Denkprozess bereitzustellen. Es ersetzt JSON-Klammern, Anführungszeichen und Kommas durch eine Ein-Marker-pro-Zeile-Syntax.
Token-Reduzierungs-Benchmarks
Aus Tests über 10-500 Zeilen und MCP-Austauschtypen:
- Strukturierte Daten vs. JSON: -50 bis -54% Token-Reduzierung
- Tool-Call-Schemas: -65 bis -71% Reduzierung
- Vollständiger MCP-Protokollaustausch: -61% Reduzierung
- Multi-Agent-Ausgabe-Tokens: -40% Reduzierung
Kein Fine-Tuning ist erforderlich – drei Few-Shot-Beispiele reichen aus, damit Modelle das Format wechseln. Die parse_r-Metrik geht von 0,29 auf 1,00 bei komplexen Aufgaben mit diesem Ansatz.
Der ?-Marker für Unsicherheit
WCY führt eine strukturelle Möglichkeit für LLMs ein, während des Denkprozesses zu markieren, was sie nicht wissen. Der ? (void-B)-Slot ermöglicht es Modellen, Unsicherheit inline anzuzeigen:
: ?diagnosis hint=labs+imaging conf_range=0.4..0.8
order CT_scan reason=from=3 . CT_result mass_in_RUL size=2.3cm : diagnosis=adenocarcinoma conf=0.82 from=3,5Tests zeigten:
- Zero-Shot: Modelle verwenden ?-Marker 0% der Zeit, selbst mit der Spezifikation im Prompt
- Mit 3 Beispielen: 5,4 Marker pro Trace, 67-97% gelöst
- 48 Pipeline-Traces über 8 Domänen: 95% Auflösung, 100% Quality-Gate-Bestanden
Der from=-Slot verfolgt inline, welche Beobachtungen welche Schlussfolgerungen stützen, was hilft, Halluzinationsketten zu erkennen.
Verfügbare Ressourcen
- wcy_parser.py – reines Python, keine externen Abhängigkeiten
- wcy_eval.py – 3-Achsen-Bewertung (Strukturell / Bedeutung / Herkunft)
- 60 Reasoning-Traces mit void-B-Zyklen (CC BY 4.0-Lizenz, für Fine-Tuning-Experimente)
- Pipeline-Skript zum Generieren weiterer Traces
Bisher nur mit Claude Sonnet getestet. Der Autor ist neugierig, ob das 0% → 5,4 Marker-Ergebnis bei Qwen, Llama und Mistral mit denselben Few-Shot-Beispielen gilt.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Skales Desktop AI Agent, entwickelt mit Claude, verfügt über einen Clippy-ähnlichen Maskottchen-Stil
Skales ist ein Desktop-KI-Agent, der lokal auf Windows und macOS läuft und Claude über die OpenRouter/Anthropic-API für logisches Denken und Werkzeugausführung nutzt. Er beinhaltet ein schwebendes Desktop-Buddy-Maskottchen mit einem Büroklammer-Skin-Referenz und kann Befehle wie E-Mails senden, Dateien verwalten, im Web surfen und Kalender verwalten ausführen.

Codesight: KI-Kontext-Engine reduziert 30.000-60.000 Tokens in Claude-Code-Sitzungen
Codesight ist ein Open-Source-Tool, das Codebasen analysiert, um KI-Coding-Agenten strukturierten Kontext zu bieten und Token-Verschwendung zu reduzieren. Ein Entwickler arbeitete mit dem Maintainer zusammen, um AST-Parsing für Next.js und Prisma, eine Testsuite, Token-Telemetrie und Profile für Claude Code und Cursor hinzuzufügen.

Neues Tool injiziert Anweisungen in Claude Code basierend auf Kontextnutzung
Ein Entwickler hat ein Tool erstellt, das die Kontextnutzung ueberwacht und benutzerdefinierte Anweisungen injiziert.

Modulus: Repository-übergreifende Wissensorchestrierung für KI-Codierungsagenten
Modulus ist eine Desktop-Anwendung, die mehrere KI-Codierungsagenten mit gemeinsamem Projektgedächtnis über Repositorys hinweg ausführt. Sie löst Kontextprobleme zwischen Repositorys, indem sie Agenten ermöglicht, Abhängigkeiten zwischen verschiedenen Codebasen zu verstehen, ohne manuelle Erklärungen.