Brève surpasse plugin homme des cavernes dans le benchmark de compression de Claude Code

✍️ OpenClawRadar📅 Publié: April 30, 2026🔗 Source
Brève surpasse plugin homme des cavernes dans le benchmark de compression de Claude Code
Ad

Max Taylor a comparé le plugin de compression populaire 'caveman' de Claude Code à une baseline triviale : préfixer 'sois bref.' à chaque prompt. Les résultats sont étonnamment plats — mais révèlent où le plugin apporte réellement de la valeur.

Méthodologie du benchmark

24 prompts répartis dans six catégories (diagnostic de bugs, explication de concepts, compromis d'architecture, configuration en plusieurs étapes, opérations destructrices/de sécurité, interprétation d'erreurs). Chaque prompt disposait d'une grille avec des points clés requis, des termes obligatoires et des affirmations interdites. Cinq bras ont été testés : baseline (sans instruction), 'sois bref.', et caveman à trois niveaux d'intensité (lite, full, ultra). Tous exécutés via claude -p sur claude-opus-4-7. Les réponses ont été évaluées par claude-sonnet-4-6 selon la grille.

Résultats de qualité

Tous les bras ont obtenu des scores dans une marge de 1,5% les uns des autres :

  • Baseline : 0,985
  • Brief : 0,985
  • Lite : 0,976
  • Full : 0,975
  • Ultra : 0,970

Chaque bras a atteint 100% des points clés. Aucune affirmation interdite n'a été déclenchée sur 120 réponses. La compression n'a pas supprimé de contenu substantiel.

Comptes de tokens

BrasTokens moyens
Baseline636
Brief419 (réduction de 34%)
Lite401
Full404
Ultra449

'Sois bref.' a réduit les tokens de 34% par rapport à la baseline. Caveman lite et full sont proches de brief. Ultra, le mode le plus strict, a produit les réponses les plus longues des trois — mais la répartition par catégorie raconte une histoire différente.

Ad

La répartition par catégorie révèle la conception de caveman

Sur le diagnostic de bugs, les explications de concepts, les compromis d'architecture et l'interprétation d'erreurs, ultra est le plus court ou à égalité. La compression fonctionne comme annoncé. Sur la configuration en plusieurs étapes et les avertissements de sécurité, tous les modes caveman montrent des comptes de tokens plus élevés. La raison : la règle 'Auto-Clarity' de caveman désactive explicitement la compression pour les avertissements de sécurité, les actions irréversibles et les séquences en plusieurs étapes. L'échappement de sécurité s'enclenche, et la compression s'arrête — par conception.

Alors, à quoi sert réellement caveman ?

Si 'sois bref.' égalise en tokens et qualité, la valeur du plugin est structurelle :

  • Forme de sortie cohérente — chaque réponse suit le même modèle, utile pour les outils en aval ou une expérience de session uniforme.
  • Réglage d'intensité — commandes slash pour passer de lite/full/ultra en cours de session.
  • Persistance sur les longues sessions — caveman réinjecte son ensemble de règles via les hooks SessionStart et UserPromptSubmit pour éviter la dérive (non testé dans ce benchmark à un seul tour).

L'ensemble complet des données et le harnais sont open source.

📖 Lire la source complète : HN AI Agents

Ad

👀 See Also

Rival-Review : Une boucle d'évaluation croisée pour les plans d'agents IA
Tools

Rival-Review : Une boucle d'évaluation croisée pour les plans d'agents IA

Rival-review est un outil sous licence MIT qui utilise un second modèle d'IA pour auditer les plans d'un agent d'IA de codage principal avant leur exécution, détectant des problèmes tels que des plans de retour arrière défectueux, des failles de sécurité et des décisions basées sur des états obsolètes.

OpenClawRadar
Surveillance du quota de code Claude dans la barre système Windows
Tools

Surveillance du quota de code Claude dans la barre système Windows

Une application de la zone de notification Windows qui surveille l'utilisation de Claude Code avec une icône codée par couleur, actualise automatiquement les données de quota toutes les 5 minutes via l'API OAuth d'Anthropic, et fournit des tableaux de bord détaillés montrant les tendances d'utilisation horaires, quotidiennes, hebdomadaires et mensuelles.

OpenClawRadar
Claude Code prend désormais en charge plus de 240 modèles via la passerelle NVIDIA NIM — dont Nemotron-3 120B pour le codage agentique
Tools

Claude Code prend désormais en charge plus de 240 modèles via la passerelle NVIDIA NIM — dont Nemotron-3 120B pour le codage agentique

Claude Code peut basculer en cours de session vers plus de 240 modèles NVIDIA NIM via la commande /model. La variante de réflexion Nemotron-3 Super 120B montre d'excellents résultats pour le refactoring multi-fichiers et les tâches agentiques.

OpenClawRadar
Tycono : Harnais d'Agent IA Open-Source avec Organigramme et Boucles d'Amélioration Autonome
Tools

Tycono : Harnais d'Agent IA Open-Source avec Organigramme et Boucles d'Amélioration Autonome

Tycono est un harnais open-source où vous définissez les rôles des agents d'IA en YAML (CTO, ingénieur, QA, etc.) et ils travaillent ensemble suivant un organigramme avec des boucles d'amélioration autonomes. Le système a exécuté 17 tours de travail pendant la nuit sur une tâche de jeu de course de pixels, générant 6 796 lignes de code réparties sur 43 commits.

OpenClawRadar