Claude-Code-Kompressions-Benchmark: Plugin vs "sei kurz"

Max Taylor hat das beliebte Claude Code-Komprimierungs-Plugin ‚caveman‘ mit einer trivialen Baseline verglichen: dem Voranstellen von „sei kurz.“ vor jeden Prompt. Die Ergebnisse sind überraschend ausgeglichen – zeigen aber, wo das Plugin tatsächlich Mehrwert bietet.

Benchmark-Methodik

24 Prompts in sechs Kategorien (Fehlerdiagnose, Konzepterklärung, Architekturkompromisse, mehrstufige Einrichtung, Sicherheit/zerstörerische Operationen, Fehlerinterpretation). Jeder Prompt hatte eine Bewertungsmatrix mit erforderlichen Kernpunkten, erforderlichen Begriffen und verbotenen Aussagen. Fünf Arme wurden getestet: Baseline (keine Anweisung), „sei kurz.“ und caveman auf drei Intensitätsstufen (lite, full, ultra). Alle liefen über claude -p auf claude-opus-4-7. Die Antworten wurden von claude-sonnet-4-6 anhand der Bewertungsmatrix bewertet.

Qualitätsergebnisse

Alle Arme lagen innerhalb von 1,5 % voneinander:

Baseline: 0,985
Kurz: 0,985
Lite: 0,976
Full: 0,975
Ultra: 0,970

Jeder Arm erreichte 100 % der Kernpunkte. Bei 120 Antworten wurden keine verbotenen Aussagen ausgelöst. Die Komprimierung ließ keine wesentlichen Inhalte weg.

Token-Anzahl

Arm	Mittlere Token
Baseline	636
Kurz	419 (34 % Reduktion)
Lite	401
Full	404
Ultra	449

„Sei kurz.“ reduzierte die Token um 34 % im Vergleich zur Baseline. Caveman lite und full landeten nahe an „kurz“. Ultra, der strengste Modus, produzierte die längsten Antworten der drei – aber die Aufteilung nach Kategorien erzählt eine andere Geschichte.

Die Kategorienaufteilung offenbart cavemans Design

Bei Fehlerdiagnose, Konzepterklärung, Architekturkompromissen und Fehlerinterpretation ist ultra am kürzesten oder gleichauf. Die Komprimierung funktioniert wie versprochen. Bei mehrstufiger Einrichtung und Sicherheitswarnungen zeigen alle caveman-Modi höhere Token-Anzahlen. Der Grund: cavemans „Auto-Clarity“-Regel deaktiviert explizit die Komprimierung für Sicherheitswarnungen, irreversible Aktionen und mehrstufige Sequenzen. Die Sicherheitsausnahme greift, und die Komprimierung stoppt – absichtlich.

Wofür ist caveman also eigentlich gedacht?

Wenn „sei kurz.“ bei Token und Qualität gleichauf liegt, liegt der Wert des Plugins im Strukturellen:

Konsistente Ausgabeform – jede Antwort folgt demselben Muster, nützlich für nachgelagerte Tools oder ein einheitliches Sitzungsgefühl.
Intensitätsregler – Slash-Befehle zum Umschalten zwischen lite/full/ultra während der Sitzung.
Persistenz über lange Sitzungen – caveman injiziert sein Regelwerk über SessionStart- und UserPromptSubmit-Hooks, um Abweichungen zu verhindern (in diesem Single-Shot-Benchmark nicht getestet).

Der vollständige Datensatz und das Test-Framework sind Open Source.

📖 Lies die vollständige Quelle: HN AI Agents