DeepSeek-V4-Flash W4A16+FP8 con autospeculación MTP: 85 tok/s en 2x RTX PRO 6000 Max-Q

✍️ OpenClawRadar📅 Publicado: 10 de mayo de 2026🔗 Source
DeepSeek-V4-Flash W4A16+FP8 con autospeculación MTP: 85 tok/s en 2x RTX PRO 6000 Max-Q
Ad

DeepSeek-V4-Flash funcionando a 85.52 tok/s @ 524k contexto y ~111 tok/s @ 128k flujo único en 2× RTX PRO 6000 Max-Q (96 GB cada una, sin NVLink). La cuantización usa la base W4A16-FP8 de pasta-paul pero con un cabezal MTP adaptado (la cuantización original elimina silenciosamente MTP al cargar). Detalles clave a continuación.

Puntos de referencia

  • Base pasta-paul, sin MTP, 524k: 52.85 tok/s, 91 ms TTFT (referencia)
  • Este modelo, 524k 2 flujos: 85.52 tok/s, 155 ms TTFT (+62%)
  • Este modelo, 128k flujo único: ~111 tok/s, ~310 ms TTFT (+110%)
  • Pruebas de cordura (muestras pequeñas): GSM8K 93%, MMLU 53%, HumanEval (sintáctico) 90%

Detalles de cuantización

  • 768 tensores de experto enrutados (256 expertos × {w1, w2, w3}): W4A16 INT4 grupo=128 sim, GPTQ (Frantar con Cholesky H⁻¹). Calibrado con 256 indicaciones de ultrachat_200k × 256 max_tokens – 17,701 volcados de MTP hacia adelante, 473k tokens.
  • 5 proyecciones de atención: FP8_BLOCK (pesos FP8 ascendentes, renombrado scale → weight_scale para compatibilidad con compressed-tensors).
  • Expertos compartidos, e_proj, h_proj, normas, compuerta, attn_sink: BF16 / FP32.
Ad

Correcciones específicas para Max-Q

Pase --disable-custom-all-reduce en tarjetas de estación de trabajo Max-Q (sin NVLink). CustomAllreduce de vLLM usa CUDA P2P y se bloquea en topología solo PCIe. Ajuste de NCCL para menor TTFT (~91 ms frente a ~155 ms):

NCCL_PROTO=LL NCCL_ALGO=Ring NCCL_MIN_NCHANNELS=8 NCCL_NTHREADS=512

Cómo ejecutar

Necesita la bifurcación de vLLM modificada de pasta-paul's workspace con parches MTP. Ejemplo de comando:

vllm serve LordNeel/DeepSeek-V4-Flash-Acti-MTP-W4A16-FP8 \
--tensor-parallel-size 2 --kv-cache-dtype fp8 --block-size 256 \
--max-model-len 524288 --max-num-seqs 2 \
--gpu-memory-utilization 0.93 \
--tokenizer-mode deepseek_v4 \
--tool-call-parser deepseek_v4 --enable-auto-tool-choice \
--reasoning-parser deepseek_v4 \
--trust-remote-code \
--disable-custom-all-reduce \
--speculative-config '{"method":"mtp","num_speculative_tokens":1}' \
--host 0.0.0.0 --port 8000

El modelo también incluye un manual AGENTS.md para configurarlo mediante agentes de codificación de IA (Claude/Codex/Cursor).

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Resolviendo el error "write_file no encontrado" en Gemini CLI para OpenClaw: Se requieren dos correcciones
Guías

Resolviendo el error "write_file no encontrado" en Gemini CLI para OpenClaw: Se requieren dos correcciones

Los agentes de OpenClaw que usan google-gemini-cli no pueden escribir archivos (write_file / default_api_write_file ausentes) debido a un tools.profile incorrecto y la falta de la bandera --approval-mode auto_edit en el subproceso. Solución: establecer el perfil en full e inyectar la bandera mediante la configuración cliBackends.

OpenClawRadar
OpenClaw 2026.3.7 interrumpe las llamadas a herramientas de Kimi, revertir a la versión 2026.3.2 soluciona la regresión.
Guías

OpenClaw 2026.3.7 interrumpe las llamadas a herramientas de Kimi, revertir a la versión 2026.3.2 soluciona la regresión.

La versión 2026.3.7 de OpenClaw tiene una regresión donde el proveedor de la API de Kimi genera XML <function_calls> crudo en lugar de ejecutar herramientas. La solución es volver a la versión 2026.3.2 y restaurar un archivo de configuración compatible.

OpenClawRadar
Accediendo a Cámaras Web USB en WSL2 para Detección de Movimiento Local
Guías

Accediendo a Cámaras Web USB en WSL2 para Detección de Movimiento Local

Un desarrollador comparte cómo usar usbipd-win para pasar cámaras web USB de Windows a WSL2, permitiendo la detección de movimiento local con OpenCV sin dependencias en la nube.

OpenClawRadar
Patrones de Diseño CLI para Agentes de IA: Conceptos Erróneos y Enfoques Prácticos
Guías

Patrones de Diseño CLI para Agentes de IA: Conceptos Erróneos y Enfoques Prácticos

Una publicación de Reddit aclara que CLI para agentes significa un protocolo de interfaz de comandos de texto, no necesariamente un shell real, y describe los principios de diseño de CLI amigables para agentes, incluyendo ayuda al estilo Unix, pensamiento de sugerencias y mecanismos de seguridad como vistas previas de ejecución en seco y autorización humana.

OpenClawRadar