Claude Code: plugin caveman vs 'sé breve' en benchmark

Max Taylor comparó el popular plugin de compresión 'caveman' de Claude Code con una línea base trivial: anteponer 'sé breve' a cada prompt. Los resultados son sorprendentemente planos, pero revelan dónde el plugin realmente aporta valor.

Metodología del benchmark

24 prompts en seis categorías (diagnóstico de errores, explicación de conceptos, compensaciones de arquitectura, configuración de múltiples pasos, operaciones de seguridad/destructivas, interpretación de errores). Cada prompt tenía una rúbrica con puntos clave requeridos, términos requeridos y afirmaciones prohibidas. Se probaron cinco variantes: línea base (sin instrucción), 'sé breve' y caveman en tres niveles de intensidad (lite, full, ultra). Todo se ejecutó mediante claude -p en claude-opus-4-7. Las respuestas fueron evaluadas por claude-sonnet-4-6 según la rúbrica.

Resultados de calidad

Todas las variantes obtuvieron puntuaciones dentro del 1.5% entre sí:

Línea base: 0.985
Breve: 0.985
Lite: 0.976
Full: 0.975
Ultra: 0.970

Todas las variantes alcanzaron el 100% de los puntos clave. No se activaron afirmaciones prohibidas en las 120 respuestas. La compresión no eliminó contenido sustancial.

Conteos de tokens

Variante	Tokens promedio
Línea base	636
Breve	419 (34% de reducción)
Lite	401
Full	404
Ultra	449

'Sé breve' redujo los tokens un 34% en comparación con la línea base. Caveman lite y full se acercaron a 'sé breve'. Ultra, el modo más estricto, produjo las respuestas más largas de las tres, pero el desglose por categorías cuenta una historia diferente.

El desglose por categorías revela el diseño de caveman

En diagnóstico de errores, explicación de conceptos, compensaciones de arquitectura e interpretación de errores, ultra es el más corto o está empatado. La compresión funciona como se anuncia. En configuración de múltiples pasos y advertencias de seguridad, todos los modos de caveman muestran conteos de tokens más altos. La razón: la regla de 'Auto-Claridad' de caveman deshabilita explícitamente la compresión para advertencias de seguridad, acciones irreversibles y secuencias de múltiples pasos. El escape de seguridad se activa y la compresión se detiene, por diseño.

Entonces, ¿para qué sirve realmente caveman?

Si 'sé breve' iguala en tokens y calidad, el valor del plugin es estructural:

Forma de salida consistente — cada respuesta sigue el mismo patrón, útil para herramientas posteriores o una experiencia de sesión uniforme.
Control de intensidad — comandos de barra para cambiar entre lite/full/ultra en medio de la sesión.
Persistencia en sesiones largas — caveman reinyecta su conjunto de reglas mediante los hooks SessionStart y UserPromptSubmit para evitar la deriva (no probado en este benchmark de una sola ejecución).

El conjunto de datos completo y el harness son de código abierto.

📖 Leer la fuente completa: HN AI Agents

La brevedad supera al plugin cavernícola en el benchmark de compresión de Claude Code

Metodología del benchmark

Resultados de calidad

Conteos de tokens

El desglose por categorías revela el diseño de caveman

Entonces, ¿para qué sirve realmente caveman?

👀 Ver también

OctoArch v5.0: Entorno de Ejecución B2B de Confianza Cero con Personas de IA Basadas en JSON

La Técnica de Doble Búfer para Ventanas de Contexto de LLM Elimina la Compactación de Parada del Mundo

Monitor de la Bandeja del Sistema de Windows para la Cuota de Código de Claude

Merlin: Deduplicación de contexto LLM local-primero – mide hasta un 71% de superposición de fragmentos, gratuito y de núcleo abierto