Claude Code Brève vs Caveman: Comparatif Benchmark Compression

Max Taylor a comparé le plugin de compression populaire 'caveman' de Claude Code à une baseline triviale : préfixer 'sois bref.' à chaque prompt. Les résultats sont étonnamment plats — mais révèlent où le plugin apporte réellement de la valeur.

Méthodologie du benchmark

24 prompts répartis dans six catégories (diagnostic de bugs, explication de concepts, compromis d'architecture, configuration en plusieurs étapes, opérations destructrices/de sécurité, interprétation d'erreurs). Chaque prompt disposait d'une grille avec des points clés requis, des termes obligatoires et des affirmations interdites. Cinq bras ont été testés : baseline (sans instruction), 'sois bref.', et caveman à trois niveaux d'intensité (lite, full, ultra). Tous exécutés via claude -p sur claude-opus-4-7. Les réponses ont été évaluées par claude-sonnet-4-6 selon la grille.

Résultats de qualité

Tous les bras ont obtenu des scores dans une marge de 1,5% les uns des autres :

Baseline : 0,985
Brief : 0,985
Lite : 0,976
Full : 0,975
Ultra : 0,970

Chaque bras a atteint 100% des points clés. Aucune affirmation interdite n'a été déclenchée sur 120 réponses. La compression n'a pas supprimé de contenu substantiel.

Comptes de tokens

Bras	Tokens moyens
Baseline	636
Brief	419 (réduction de 34%)
Lite	401
Full	404
Ultra	449

'Sois bref.' a réduit les tokens de 34% par rapport à la baseline. Caveman lite et full sont proches de brief. Ultra, le mode le plus strict, a produit les réponses les plus longues des trois — mais la répartition par catégorie raconte une histoire différente.

La répartition par catégorie révèle la conception de caveman

Sur le diagnostic de bugs, les explications de concepts, les compromis d'architecture et l'interprétation d'erreurs, ultra est le plus court ou à égalité. La compression fonctionne comme annoncé. Sur la configuration en plusieurs étapes et les avertissements de sécurité, tous les modes caveman montrent des comptes de tokens plus élevés. La raison : la règle 'Auto-Clarity' de caveman désactive explicitement la compression pour les avertissements de sécurité, les actions irréversibles et les séquences en plusieurs étapes. L'échappement de sécurité s'enclenche, et la compression s'arrête — par conception.

Alors, à quoi sert réellement caveman ?

Si 'sois bref.' égalise en tokens et qualité, la valeur du plugin est structurelle :

Forme de sortie cohérente — chaque réponse suit le même modèle, utile pour les outils en aval ou une expérience de session uniforme.
Réglage d'intensité — commandes slash pour passer de lite/full/ultra en cours de session.
Persistance sur les longues sessions — caveman réinjecte son ensemble de règles via les hooks SessionStart et UserPromptSubmit pour éviter la dérive (non testé dans ce benchmark à un seul tour).

L'ensemble complet des données et le harnais sont open source.

📖 Lire la source complète : HN AI Agents

Brève surpasse plugin homme des cavernes dans le benchmark de compression de Claude Code

Méthodologie du benchmark

Résultats de qualité

Comptes de tokens

La répartition par catégorie révèle la conception de caveman

Alors, à quoi sert réellement caveman ?

👀 See Also

Bibliothèque de prompts pour agents IA open source atteint 100 étoiles sur GitHub

Voker lance sa plateforme d'analyse d'agents avec les primitives Intention/Correction/Résolution

Système d'auto-audit à 4 niveaux pour l'évolution comportementale d'OpenClaw

llm-use – Un Cadre Open-Source pour le Routage et l'Orchestration de Flux de Travail Multi-Agents LLM