WCY-Format reduziert LLM-Token-Overhead um 50-71%

WCY (Watch → Compute → Yield) ist ein zeilenorientiertes Format, das entwickelt wurde, um den LLM-Token-Overhead zu reduzieren und strukturelle Marker für Unsicherheit im Denkprozess bereitzustellen. Es ersetzt JSON-Klammern, Anführungszeichen und Kommas durch eine Ein-Marker-pro-Zeile-Syntax.

Token-Reduzierungs-Benchmarks

Aus Tests über 10-500 Zeilen und MCP-Austauschtypen:

Strukturierte Daten vs. JSON: -50 bis -54% Token-Reduzierung
Tool-Call-Schemas: -65 bis -71% Reduzierung
Vollständiger MCP-Protokollaustausch: -61% Reduzierung
Multi-Agent-Ausgabe-Tokens: -40% Reduzierung

Kein Fine-Tuning ist erforderlich – drei Few-Shot-Beispiele reichen aus, damit Modelle das Format wechseln. Die parse_r-Metrik geht von 0,29 auf 1,00 bei komplexen Aufgaben mit diesem Ansatz.

Der ?-Marker für Unsicherheit

WCY führt eine strukturelle Möglichkeit für LLMs ein, während des Denkprozesses zu markieren, was sie nicht wissen. Der ? (void-B)-Slot ermöglicht es Modellen, Unsicherheit inline anzuzeigen:

: ?diagnosis hint=labs+imaging conf_range=0.4..0.8
    order CT_scan reason=from=3 . CT_result mass_in_RUL size=2.3cm : diagnosis=adenocarcinoma conf=0.82 from=3,5

Tests zeigten:

Zero-Shot: Modelle verwenden ?-Marker 0% der Zeit, selbst mit der Spezifikation im Prompt
Mit 3 Beispielen: 5,4 Marker pro Trace, 67-97% gelöst
48 Pipeline-Traces über 8 Domänen: 95% Auflösung, 100% Quality-Gate-Bestanden

Der from=-Slot verfolgt inline, welche Beobachtungen welche Schlussfolgerungen stützen, was hilft, Halluzinationsketten zu erkennen.

Verfügbare Ressourcen

wcy_parser.py – reines Python, keine externen Abhängigkeiten
wcy_eval.py – 3-Achsen-Bewertung (Strukturell / Bedeutung / Herkunft)
60 Reasoning-Traces mit void-B-Zyklen (CC BY 4.0-Lizenz, für Fine-Tuning-Experimente)
Pipeline-Skript zum Generieren weiterer Traces

Bisher nur mit Claude Sonnet getestet. Der Autor ist neugierig, ob das 0% → 5,4 Marker-Ergebnis bei Qwen, Llama und Mistral mit denselben Few-Shot-Beispielen gilt.

📖 Read the full source: r/LocalLLaMA

Das WCY-Format reduziert den Token-Overhead von LLMs um 50–71 % und fügt strukturelle „Ich weiß nicht“-Marker hinzu.

Token-Reduzierungs-Benchmarks

Der ?-Marker für Unsicherheit

Verfügbare Ressourcen

👀 Siehe auch

Skales Desktop AI Agent, entwickelt mit Claude, verfügt über einen Clippy-ähnlichen Maskottchen-Stil

Codesight: KI-Kontext-Engine reduziert 30.000-60.000 Tokens in Claude-Code-Sitzungen

Neues Tool injiziert Anweisungen in Claude Code basierend auf Kontextnutzung

Modulus: Repository-übergreifende Wissensorchestrierung für KI-Codierungsagenten