Benchmark: 'Sei kurz' vs Höhlenmensch Prompt für Claude

Ein Entwickler hat caveman (den populären Kurzschreib-Komprimierungs-Prompt) mit dem einfachen Prompt „be brief.“ verglichen, um zu sehen, ob die zusätzliche Komplexität sich tatsächlich auszahlt. Der Test führte 24 Entwicklungs-Prompts in 6 Kategorien durch und verglich 5 Arme: Baseline, „be brief.“, caveman lite, caveman full und caveman ultra. Die Ausgaben wurden von einer separaten Claude-Instanz anhand von pro Prompt erstellten Bewertungskriterien beurteilt.

Benchmark-Ergebnisse

Baseline: Durchschnittswert 0,985, durchschnittliche Token 636
„be brief.“: Durchschnittswert 0,985, durchschnittliche Token 419
Caveman lite: Durchschnittswert 0,976, durchschnittliche Token 401
Caveman full: Durchschnittswert 0,975, durchschnittliche Token 404
Caveman ultra: Durchschnittswert 0,970, durchschnittliche Token 449

Die Zwei-Wort-Version war caveman sowohl in der Kompression als auch in der Qualität ebenbürtig. Der Wert von caveman liegt jedoch woanders: konsistente Ausgabestruktur, Moduswechsel und der Sicherheits-Escape bei destruktiven Operationen. Der Sicherheits-Escape führte tatsächlich zu erheblichen Schwankungen in der Ausgabequalität, was für bestimmte Anwendungsfälle ein Problem darstellen könnte.

Eine vollständige Aufschlüsselung mit Daten pro Kategorie und Varianz-Erkenntnissen zu Sicherheitsfragen ist auf der Website des Autors verfügbar. Der Benchmark-Harness ist auf GitHub quelloffen.

📖 Read the full source: r/ClaudeAI

Höhlenmensch vs 'Sei kurz' Prompt: Benchmarking von Komprimierungs-Prompts für Claude

Benchmark-Ergebnisse

👀 Siehe auch

OpenClaw 2026.3.13-Regression verursacht falsche Meldungen über nicht erreichbare Status.

YouTube Auto-Labels für KI-Videos: Vereinfachte Labels & automatische Erkennung im Jahr 2026

Microsoft veröffentlicht Phi-4-reasoning-vision-15B multimodales Modell mit Trainingserkenntnissen

Adaptive Inferenz-Routing-Vorschlag für KI-Abfrageeffizienz