Qwen 3.5 122B MoE a 35 t/s en una sola 3090 con ik_llama.cpp MTP

Un desarrollador que ejecuta una pila de inferencia completamente local en un solo escritorio reporta alcanzar 35 tokens/s en Qwen 3.5 122B MoE usando solo una 3090, con el habilitador clave siendo un fork de llama.cpp que corrige MTP (Multi-Token Prediction) para expertos descargados.
Configuración de hardware
- CPU AMD 9900X
- 192GB DDR5-5200 RAM (llamada "el arma secreta")
- Dos 3090 (Ti + estándar), sin NVLink
La tarjeta 1 ejecuta el worker: Qwen3.5-122B-A10B usando Unsloth IQ3_S MTP GGUF con contexto de 204K. El 75% de las capas de expertos se descargan a la CPU mediante flags quirúrgicos -ot. La tarjeta 2 ejecuta el razonador: Qwen3.6-35B-A3B Q4_K_XL con MTP a 135 t/s, contexto de 262K.
Instancias adicionales solo en CPU manejan procesamiento en segundo plano: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — totalizando ~19GB RAM.
El hallazgo de ik_llama.cpp
El MTP de llama.cpp estándar evalúa los expertos de cada token especulado secuencialmente a través de DDR5, lo que en contenido de razonamiento realmente empeora el rendimiento — la sobrecarga del borrador supera la ganancia de velocidad de aceptación. El fork ik implementa operaciones MoE fusionadas que agrupan las lecturas de expertos para tokens especulados, convirtiendo MTP de una ganancia del +4% a una ganancia del +20%. El desarrollador reporta 35 t/s de decodificación en un modelo de 122B desde una sola 3090 usando este fork.
Si estás descargando expertos a RAM en cualquier modelo MoE, prueba ik_llama.cpp antes de rendirte con MTP.
Costo total del montaje
- ~$1600 en RAM
- ~$1600 en dos 3090
- ~$400 en todo lo demás
- Costo de funcionamiento: solo electricidad
📖 Lee la fuente original: r/openclaw
👀 Ver también

OpenClaw 101: Resumen de Inicio Rápido para Principiantes

Evaluación de Chatbots RAG: Cómo un Barrido de Modelos + Arreglos de Recuperación Redujeron Costos un 79% y Mejoraron la Calidad un 19%
Un desarrollador evaluó un bot RAG de atención al cliente y encontró configuraciones incorrectas de recuperación, fallos en el evaluador heurístico y un modelo más barato que superó al de producción. La calidad mejoró de 6.62 a 7.88 mientras que el costo bajó de $0.002420 a $0.000509 por sesión.

Configuración y Pruebas de vLLM en Servidor con 10x NVIDIA V100 y 320GB de VRAM
Un abogado que construye un servidor de IA local para trabajo legal comparte resultados de pruebas de vLLM en 10 GPUs Tesla V100 SXM2 de 32GB, detallando lo que funciona (FP16 sin cuantizar, bitsandbytes de 4 bits) y lo que no (GPTQ, AWQ, FlashAttention2) en la arquitectura Volta.

Conector de Todoist eliminado de Claude, se requiere configuración personalizada
El conector oficial de Todoist ya no está disponible en Claude. Los usuarios pueden agregar Todoist como un conector personalizado usando la URL MCP https://ai.todoist.net/mcp, pero esto requiere una suscripción a Claude Pro o Max.