Qwen 3.5 122B MoE a 35 t/s em uma única 3090 com ik_llama.cpp MTP

Um desenvolvedor rodando uma stack de inferência totalmente local em um único desktop relata atingir 35 tokens/s no Qwen 3.5 122B MoE usando apenas uma 3090, com o principal facilitador sendo um fork do llama.cpp que corrige MTP (Multi-Token Prediction) para especialistas descarregados.
Configuração de Hardware
- CPU AMD 9900X
- 192GB DDR5-5200 RAM (chamada de “a arma secreta”)
- Duas 3090s (Ti + padrão), sem NVLink
A placa 1 roda o worker: Qwen3.5-122B-A10B usando Unsloth IQ3_S MTP GGUF com contexto de 204K. 75% das camadas de especialistas são descarregadas para a CPU via flags cirúrgicas -ot. A placa 2 roda o reasoner: Qwen3.6-35B-A3B Q4_K_XL com MTP a 135 t/s, contexto de 262K.
Instâncias adicionais apenas em CPU lidam com processamento em segundo plano: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — totalizando ~19GB RAM.
A Descoberta do ik_llama.cpp
O MTP do llama.cpp padrão avalia os especialistas de cada token especulado sequencialmente através da DDR5, o que em conteúdo de raciocínio na verdade regride o desempenho — a sobrecarga do draft supera o ganho de aceitação. O fork ik implementa operações MoE fundidas que agrupam leituras de especialistas para tokens especulados, transformando o MTP de um ganho de +4% para um ganho de +20%. O desenvolvedor relata 35 t/s de decode em um modelo de 122B a partir de uma única 3090 usando este fork.
Se você está descarregando especialistas para a RAM em qualquer modelo MoE, experimente ik_llama.cpp antes de desistir do MTP.
Custo Total da Montagem
- ~$1600 pela RAM
- ~$1600 por duas 3090s
- ~$400 pelo resto
- Custo operacional: apenas eletricidade
📖 Leia a fonte completa: r/openclaw
👀 See Also

Construindo um Rig de Dados Financeiros Locais + IA Pessoal no Mac Studio
Um desenvolvedor relata sua jornada na construção de um sistema totalmente localizado de processamento de dados financeiros e assistente pessoal de IA em um Mac Studio, incluindo decisões de arquitetura, distribuição de memória, orquestração de cron e primeiras otimizações.

Dicas de configuração do OpenClaw baseadas na experiência de um usuário: MCP do Gmail, flags de perfil e problemas de rede
Um usuário executando o OpenClaw em um Mac via UTM com uma VM Ubuntu compartilha problemas de configuração específicos encontrados: o servidor MCP do Gmail requer o parâmetro html_body em vez de body, a flag --profile prod é necessária para evitar uma identidade dev embutida, e as chaves de API devem ser colocadas em auth-profiles.json via comando paste-token.

Aproveitando as Habilidades do Agente para Escrever Kernels CUDA com Upskill
A Hugging Face apresenta uma abordagem prática para aprimorar modelos na escrita de kernels CUDA usando a nova ferramenta Upskill, melhorando a eficiência do modelo por meio de habilidades de agentes.

Fluxo de Trabalho de IA Estruturado com Comandos Baseados em Fases para Reduzir Retrabalho
Um desenvolvedor compartilha um fluxo de trabalho programável usando comandos específicos como /pwf-brainstorm e /pwf-work-plan para abordar problemas comuns de codificação com IA: perda de contexto, padrões quebrados e planejamento/execução misturados. A abordagem inclui atualizações obrigatórias de documentação e uma estrutura de projeto multi-raiz.