Hombre de las cavernas vs. instrucción 'sé breve': comparación de indicaciones de compresión para Claude

Un desarrollador comparó caveman (el popular prompt de compresión abreviada) con el prompt simple 'sé breve.' para ver si la complejidad adicional realmente vale la pena. La prueba ejecutó 24 prompts de desarrollo en 6 categorías, comparando 5 brazos: línea base, 'sé breve.', caveman ligero, caveman completo y caveman ultra. Las salidas fueron evaluadas por una instancia separada de Claude usando rúbricas por prompt.
Resultados del benchmark
- Línea base: puntuación media 0.985, tokens medios 636
- 'sé breve.': puntuación media 0.985, tokens medios 419
- Caveman ligero: puntuación media 0.976, tokens medios 401
- Caveman completo: puntuación media 0.975, tokens medios 404
- Caveman ultra: puntuación media 0.970, tokens medios 449
La versión de dos palabras igualó a caveman tanto en compresión como en calidad. Sin embargo, el valor de caveman radica en otros aspectos: estructura de salida consistente, cambio de modo y el escape de seguridad en operaciones destructivas. El escape de seguridad introdujo una varianza significativa en la calidad de salida, lo que puede ser una preocupación para ciertos casos de uso.
El desglose completo con datos por categoría y hallazgos de varianza en preguntas de seguridad está disponible en el sitio del autor. El arnés de benchmark es de código abierto en GitHub.
📖 Read the full source: r/ClaudeAI
👀 Ver también

La investigación de trazado de circuitos de Anthropic revela los mecanismos internos de Claude 3.5 Haiku.
Anthropic publicó una investigación de trazado de circuitos sobre una versión simplificada de Claude 3.5 Haiku, revelando seis comportamientos específicos, incluido su estado predeterminado de "No lo sé", la escritura de poemas hacia atrás y el procesamiento matemático de doble vía.

Estudio de Cursor AI: Las ganancias de velocidad a corto plazo conducen a la complejidad a largo plazo
Un estudio que utilizó análisis de diferencias en diferencias encontró que la adopción de Cursor AI conduce a aumentos estadísticamente significativos pero transitorios en la velocidad, junto con aumentos sustanciales y persistentes en las advertencias de análisis estático y la complejidad del código que impulsan desaceleraciones a largo plazo.

Explorando las complejidades de OpenClaw: Cómo opera.
OpenClaw está revolucionando el panorama de la codificación con IA gracias a su arquitectura innovadora y sus funcionalidades únicas. Descubre el funcionamiento interno de este potente agente de automatización.

Claude Code v2.1.73: Anulaciones de Modelo, Correcciones de Estabilidad y Mejoras de Rendimiento
Claude Code v2.1.73 agrega modelOverrides para IDs de proveedores personalizados, corrige bloqueos críticos y puntos muertos, resuelve degradaciones de modelos de subagentes y mejora la estabilidad del modo de voz. La versión aborda 18 problemas específicos, incluyendo solicitudes de permisos de comandos bash, corrupción de sesiones y fallos del sandbox de Linux.