Qwen 3.5 122B MoE a 35 t/s en una sola 3090 con ik_llama.cpp MTP

✍️ OpenClawRadar📅 Publicado: 6 de junio de 2026🔗 Source
Qwen 3.5 122B MoE a 35 t/s en una sola 3090 con ik_llama.cpp MTP
Ad

Un desarrollador que ejecuta una pila de inferencia completamente local en un solo escritorio reporta alcanzar 35 tokens/s en Qwen 3.5 122B MoE usando solo una 3090, con el habilitador clave siendo un fork de llama.cpp que corrige MTP (Multi-Token Prediction) para expertos descargados.

Configuración de hardware

  • CPU AMD 9900X
  • 192GB DDR5-5200 RAM (llamada "el arma secreta")
  • Dos 3090 (Ti + estándar), sin NVLink

La tarjeta 1 ejecuta el worker: Qwen3.5-122B-A10B usando Unsloth IQ3_S MTP GGUF con contexto de 204K. El 75% de las capas de expertos se descargan a la CPU mediante flags quirúrgicos -ot. La tarjeta 2 ejecuta el razonador: Qwen3.6-35B-A3B Q4_K_XL con MTP a 135 t/s, contexto de 262K.

Instancias adicionales solo en CPU manejan procesamiento en segundo plano: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — totalizando ~19GB RAM.

Ad

El hallazgo de ik_llama.cpp

El MTP de llama.cpp estándar evalúa los expertos de cada token especulado secuencialmente a través de DDR5, lo que en contenido de razonamiento realmente empeora el rendimiento — la sobrecarga del borrador supera la ganancia de velocidad de aceptación. El fork ik implementa operaciones MoE fusionadas que agrupan las lecturas de expertos para tokens especulados, convirtiendo MTP de una ganancia del +4% a una ganancia del +20%. El desarrollador reporta 35 t/s de decodificación en un modelo de 122B desde una sola 3090 usando este fork.

Si estás descargando expertos a RAM en cualquier modelo MoE, prueba ik_llama.cpp antes de rendirte con MTP.

Costo total del montaje

  • ~$1600 en RAM
  • ~$1600 en dos 3090
  • ~$400 en todo lo demás
  • Costo de funcionamiento: solo electricidad

📖 Lee la fuente original: r/openclaw

Ad

👀 Ver también