Kurzfassung schlägt Höhlenmensch-Plugin im Claude-Code-Kompressions-Benchmark

Max Taylor hat das beliebte Claude Code-Komprimierungs-Plugin ‚caveman‘ mit einer trivialen Baseline verglichen: dem Voranstellen von „sei kurz.“ vor jeden Prompt. Die Ergebnisse sind überraschend ausgeglichen – zeigen aber, wo das Plugin tatsächlich Mehrwert bietet.
Benchmark-Methodik
24 Prompts in sechs Kategorien (Fehlerdiagnose, Konzepterklärung, Architekturkompromisse, mehrstufige Einrichtung, Sicherheit/zerstörerische Operationen, Fehlerinterpretation). Jeder Prompt hatte eine Bewertungsmatrix mit erforderlichen Kernpunkten, erforderlichen Begriffen und verbotenen Aussagen. Fünf Arme wurden getestet: Baseline (keine Anweisung), „sei kurz.“ und caveman auf drei Intensitätsstufen (lite, full, ultra). Alle liefen über claude -p auf claude-opus-4-7. Die Antworten wurden von claude-sonnet-4-6 anhand der Bewertungsmatrix bewertet.
Qualitätsergebnisse
Alle Arme lagen innerhalb von 1,5 % voneinander:
- Baseline: 0,985
- Kurz: 0,985
- Lite: 0,976
- Full: 0,975
- Ultra: 0,970
Jeder Arm erreichte 100 % der Kernpunkte. Bei 120 Antworten wurden keine verbotenen Aussagen ausgelöst. Die Komprimierung ließ keine wesentlichen Inhalte weg.
Token-Anzahl
| Arm | Mittlere Token |
|---|---|
| Baseline | 636 |
| Kurz | 419 (34 % Reduktion) |
| Lite | 401 |
| Full | 404 |
| Ultra | 449 |
„Sei kurz.“ reduzierte die Token um 34 % im Vergleich zur Baseline. Caveman lite und full landeten nahe an „kurz“. Ultra, der strengste Modus, produzierte die längsten Antworten der drei – aber die Aufteilung nach Kategorien erzählt eine andere Geschichte.
Die Kategorienaufteilung offenbart cavemans Design
Bei Fehlerdiagnose, Konzepterklärung, Architekturkompromissen und Fehlerinterpretation ist ultra am kürzesten oder gleichauf. Die Komprimierung funktioniert wie versprochen. Bei mehrstufiger Einrichtung und Sicherheitswarnungen zeigen alle caveman-Modi höhere Token-Anzahlen. Der Grund: cavemans „Auto-Clarity“-Regel deaktiviert explizit die Komprimierung für Sicherheitswarnungen, irreversible Aktionen und mehrstufige Sequenzen. Die Sicherheitsausnahme greift, und die Komprimierung stoppt – absichtlich.
Wofür ist caveman also eigentlich gedacht?
Wenn „sei kurz.“ bei Token und Qualität gleichauf liegt, liegt der Wert des Plugins im Strukturellen:
- Konsistente Ausgabeform – jede Antwort folgt demselben Muster, nützlich für nachgelagerte Tools oder ein einheitliches Sitzungsgefühl.
- Intensitätsregler – Slash-Befehle zum Umschalten zwischen lite/full/ultra während der Sitzung.
- Persistenz über lange Sitzungen – caveman injiziert sein Regelwerk über
SessionStart- undUserPromptSubmit-Hooks, um Abweichungen zu verhindern (in diesem Single-Shot-Benchmark nicht getestet).
Der vollständige Datensatz und das Test-Framework sind Open Source.
📖 Lies die vollständige Quelle: HN AI Agents
👀 Siehe auch

Claude-Skills-Maintainer sucht Feedback zu 181 Agent Skills Library
Reza, der Betreuer von claude-skills, bittet die Community um Feedback zu seiner Open-Source-Bibliothek, die 181 Agenten-Fähigkeiten, 250 Python-Tools und 15 Agenten-Personas enthält, die über 11 KI-Codierungstools hinweg funktionieren. Er hinterfragt, ob der isolierte Fähigkeitsansatz effektiv ist, und möchte Input zu fehlenden Fähigkeiten, persona-basierten Agenten und Tool-Integrationen.

OutClaw: GUI-Installer und Manager für OpenClaw in Docker
OutClaw ist eine kostenlose, quelloffene Anwendung, die OpenClaw-Instanzen in Docker-Containern installiert und verwaltet. Sie bietet eine schrittweise GUI für die Einrichtung, Konfiguration und Verbindung mit KI-Anbietern und Chat-Kanälen, ohne die Kommandozeile zu verwenden.

Blender MCP Server mit über 100 Tools, erstellt mit Claude Code
Ein Entwickler hat einen MCP-Server für Blender erstellt, der über 100 Werkzeuge in 14 Kategorien bietet und es KI-Codierungsagenten ermöglicht, Blenders Beleuchtung, Animation, Rendering und Geometry Nodes über natürliche Sprachbefehle zu steuern. Die gesamte Codebasis wurde mit Claude Code geschrieben, was dabei half, architektonische Herausforderungen wie Blenders Hauptthread-API-Anforderung zu lösen.

SkyClaw: Rust-basierte Laufzeitumgebung für autonome KI-Agenten
SkyClaw ist eine autonome KI-Agenten-Laufzeitumgebung, die in Rust entwickelt wurde, mit einer 7,1 MB großen Binärdatei, die im Leerlauf 14 MB RAM belegt und in weniger als einer Sekunde startet. Sie arbeitet nach fünf technischen Prinzipien, darunter Autonomie, Robustheit und brutale Effizienz.