La brevedad supera al plugin cavernícola en el benchmark de compresión de Claude Code

Max Taylor comparó el popular plugin de compresión 'caveman' de Claude Code con una línea base trivial: anteponer 'sé breve' a cada prompt. Los resultados son sorprendentemente planos, pero revelan dónde el plugin realmente aporta valor.
Metodología del benchmark
24 prompts en seis categorías (diagnóstico de errores, explicación de conceptos, compensaciones de arquitectura, configuración de múltiples pasos, operaciones de seguridad/destructivas, interpretación de errores). Cada prompt tenía una rúbrica con puntos clave requeridos, términos requeridos y afirmaciones prohibidas. Se probaron cinco variantes: línea base (sin instrucción), 'sé breve' y caveman en tres niveles de intensidad (lite, full, ultra). Todo se ejecutó mediante claude -p en claude-opus-4-7. Las respuestas fueron evaluadas por claude-sonnet-4-6 según la rúbrica.
Resultados de calidad
Todas las variantes obtuvieron puntuaciones dentro del 1.5% entre sí:
- Línea base: 0.985
- Breve: 0.985
- Lite: 0.976
- Full: 0.975
- Ultra: 0.970
Todas las variantes alcanzaron el 100% de los puntos clave. No se activaron afirmaciones prohibidas en las 120 respuestas. La compresión no eliminó contenido sustancial.
Conteos de tokens
| Variante | Tokens promedio |
|---|---|
| Línea base | 636 |
| Breve | 419 (34% de reducción) |
| Lite | 401 |
| Full | 404 |
| Ultra | 449 |
'Sé breve' redujo los tokens un 34% en comparación con la línea base. Caveman lite y full se acercaron a 'sé breve'. Ultra, el modo más estricto, produjo las respuestas más largas de las tres, pero el desglose por categorías cuenta una historia diferente.
El desglose por categorías revela el diseño de caveman
En diagnóstico de errores, explicación de conceptos, compensaciones de arquitectura e interpretación de errores, ultra es el más corto o está empatado. La compresión funciona como se anuncia. En configuración de múltiples pasos y advertencias de seguridad, todos los modos de caveman muestran conteos de tokens más altos. La razón: la regla de 'Auto-Claridad' de caveman deshabilita explícitamente la compresión para advertencias de seguridad, acciones irreversibles y secuencias de múltiples pasos. El escape de seguridad se activa y la compresión se detiene, por diseño.
Entonces, ¿para qué sirve realmente caveman?
Si 'sé breve' iguala en tokens y calidad, el valor del plugin es estructural:
- Forma de salida consistente — cada respuesta sigue el mismo patrón, útil para herramientas posteriores o una experiencia de sesión uniforme.
- Control de intensidad — comandos de barra para cambiar entre lite/full/ultra en medio de la sesión.
- Persistencia en sesiones largas — caveman reinyecta su conjunto de reglas mediante los hooks
SessionStartyUserPromptSubmitpara evitar la deriva (no probado en este benchmark de una sola ejecución).
El conjunto de datos completo y el harness son de código abierto.
📖 Leer la fuente completa: HN AI Agents
👀 Ver también

OctoArch v5.0: Entorno de Ejecución B2B de Confianza Cero con Personas de IA Basadas en JSON
OctoArch v5.0 es un entorno de ejecución cognitivo B2B de confianza cero diseñado para casos de uso empresariales estrictos como la extracción fiscal/de facturas. Reemplaza los prompts basados en texto con personas de IA definidas por JSON e implementa el encarcelamiento de rutas para prevenir ataques al servidor.

La Técnica de Doble Búfer para Ventanas de Contexto de LLM Elimina la Compactación de Parada del Mundo
Una técnica llamada doble búfer puede evitar que los agentes de LLM se congelen durante la compactación de ventanas de contexto al resumir temprano y mantener dos búferes, permitiendo una transición fluida sin costo adicional de inferencia.

Monitor de la Bandeja del Sistema de Windows para la Cuota de Código de Claude
Una aplicación de la bandeja del sistema de Windows que monitorea el uso de Claude Code con un icono codificado por colores, actualiza automáticamente los datos de cuota cada 5 minutos a través de la API OAuth de Anthropic, y proporciona paneles detallados que muestran patrones de uso por hora, día, semana y mes.

Merlin: Deduplicación de contexto LLM local-primero – mide hasta un 71% de superposición de fragmentos, gratuito y de núcleo abierto
Merlin es una herramienta de deduplicación de contexto local que midió un 22-71% de superposición de chunks en 22 millones de pasajes de sesiones reales de agentes/RAG. Se distribuye como proxy HTTP (Ollama/vLLM/SGLang/llama.cpp), servidor MCP (Claude/Cursor/OpenClaw) o CLI independiente. Código abierto MIT con límites de uso diario.