Bench de caché KV de Qwen 3.6-35B-A3B: f16 vs q8_0 vs Turbo3 vs Turbo4 en M5 Max hasta 1M de contexto

✍️ OpenClawRadar📅 Publicado: 28 de abril de 2026🔗 Source
Bench de caché KV de Qwen 3.6-35B-A3B: f16 vs q8_0 vs Turbo3 vs Turbo4 en M5 Max hasta 1M de contexto
Ad

Un usuario de Reddit realizó un barrido de profundidad en Qwen 3.6-35B-A3B Q8 usando el fork TurboQuant Metal de llama.cpp de TheTom (GitHub: TheTom/llama-cpp-turboquant, rama feature/turboquant-kv-cache) en una MacBook Pro M5 Max con 128 GB de memoria unificada. Probaron cuatro tipos de caché KV: f16, q8_0, turbo3 (3 bits) y turbo4 (4 bits), K y V simétricos, con flash-attn activado y mlock activado, desde 0 hasta 1M tokens de contexto.

Hardware y compilación

M5 Max, 128 GB de memoria unificada. Compilado con cmake -B build -DGGML_METAL=ON. Usaron llama-bench, 3 repeticiones por celda, flash-attn activado, mlock activado. 8 horas de tiempo real durante la noche.

Rendimiento de generación (tok/s)

Profundidadf16q8_0turbo3turbo4
089.487.479.579.7
8K84.279.272.271.2
32K72.667.861.561.8
128K44.440.736.037.7
256KOOM26.622.925.5
512KOOMOOM13.316.0
1MOOMOOM6.5OOM

Rendimiento de procesamiento de prompt (tok/s)

Profundidadf16q8_0turbo3turbo4
02962294829042854
8K2098162316531439
32K1063802784678
128K321245253206
256KOOM124128101
512KOOMOOM6656
1MOOMOOM30OOM
Ad

Conclusiones clave

  • A profundidad 0, f16 lidera por poco en prefill; turbo3 es ~10% más lento en decodificación.
  • A 128K, el prefill de turbo3 (253 tok/s) iguala a q8_0 (245 tok/s) — el caché más pequeño reduce la presión del ancho de banda.
  • A 256K, turbo3 gana en prefill +27% sobre turbo4 (128 vs 101), pero turbo4 gana en decodificación +11% (25.5 vs 22.9). A 512K, la brecha de decodificación se amplía a +20% (turbo4 16.0 vs turbo3 13.3).
  • turbo3 es el único tipo de caché que cabe en contexto de 1M (6.5 tok/s de decodificación). Memoria a 1M: ~89 GB (37 GB de pesos, ~52 GB de caché KV).

Recomendaciones según la carga de trabajo

  • Agentes de codificación (contexto profundo, muchos tokens generados): turbo4
  • RAG / QA por lotes (prefill pesado, respuestas cortas): turbo3
  • Contexto de 1M: solo turbo3
  • Interactivo corto (<32K): f16 si cabe, si no q8_0

Advertencias

Esto es un solo M5 Max. Los puntos de cruce probablemente cambien con el ancho de banda de memoria y los núcleos de GPU. Solo se probó K/V simétrico. Combinaciones asimétricas (por ejemplo, -ctk q8_0 -ctv turbo4) no se evaluaron. El fork de TheTom es de nivel de investigación, no está integrado en la rama principal de llama.cpp.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Synthetic anuncia una importante reestructuración de precios con cambios significativos en los límites de tasas.
Noticias

Synthetic anuncia una importante reestructuración de precios con cambios significativos en los límites de tasas.

Synthetic está reemplazando sus niveles Estándar y Pro con paquetes de suscripción a $30/mes, ofreciendo 135 mensajes por 5 horas por paquete. Los usuarios Pro existentes verán sus 1,250 mensajes por 5 horas reducidos a 335 mensajes por el mismo precio de $60/mes.

OpenClawRadar
Anthropic adquiere Stainless por más de $300M — ahora posee el generador de servidores MCP dominante
Noticias

Anthropic adquiere Stainless por más de $300M — ahora posee el generador de servidores MCP dominante

Anthropic compró el generador de SDK Stainless por más de $300M. Stainless genera la mayoría de los servidores MCP en producción a partir de especificaciones OpenAPI. El producto alojado se está reduciendo; las nuevas suscripciones se detuvieron el lunes.

OpenClawRadar
Claude Code v2.1.74 Actualizaciones del Prompt del Sistema: Reglas de Seguridad, Selección de Memoria y Nuevas Habilidades
Noticias

Claude Code v2.1.74 Actualizaciones del Prompt del Sistema: Reglas de Seguridad, Selección de Memoria y Nuevas Habilidades

Claude Code v2.1.74 añade 1.750 tokens a los prompts del sistema, incluyendo nuevas reglas del monitor de seguridad que bloquean escrituras externas no autorizadas, una habilidad /stuck para diagnosticar sesiones congeladas, y mejoras en la selección de memoria que omiten referencias API redundantes.

OpenClawRadar
La Aplicación de Escritorio de Claude Descarga Silenciosamente un Archivo de 13 GB en Cada Inicio Sin Opción de Exclusión
Noticias

La Aplicación de Escritorio de Claude Descarga Silenciosamente un Archivo de 13 GB en Cada Inicio Sin Opción de Exclusión

La aplicación de escritorio de Claude descarga automáticamente un archivo de ~12,95 GB llamado claudevm.bundle cada vez que se inicia, incluso para usuarios que no utilizan Claude Code. El soporte de Anthropic confirmó que esto es intencional y que los usuarios individuales no tienen forma de desactivarlo.

OpenClawRadar