Qwen 3.5 122B MoE a 35 t/s em uma única 3090 com ik_llama.cpp MTP

✍️ OpenClawRadar📅 Publicado: June 6, 2026🔗 Source

Um desenvolvedor rodando uma stack de inferência totalmente local em um único desktop relata atingir 35 tokens/s no Qwen 3.5 122B MoE usando apenas uma 3090, com o principal facilitador sendo um fork do llama.cpp que corrige MTP (Multi-Token Prediction) para especialistas descarregados.

Configuração de Hardware

CPU AMD 9900X
192GB DDR5-5200 RAM (chamada de “a arma secreta”)
Duas 3090s (Ti + padrão), sem NVLink

A placa 1 roda o worker: Qwen3.5-122B-A10B usando Unsloth IQ3_S MTP GGUF com contexto de 204K. 75% das camadas de especialistas são descarregadas para a CPU via flags cirúrgicas -ot. A placa 2 roda o reasoner: Qwen3.6-35B-A3B Q4_K_XL com MTP a 135 t/s, contexto de 262K.

Instâncias adicionais apenas em CPU lidam com processamento em segundo plano: Dialectic (35B heretic Q8), Scribe-Logos (Gemma4 19B), Moonshot (Gemma4 2B) — totalizando ~19GB RAM.

A Descoberta do ik_llama.cpp

O MTP do llama.cpp padrão avalia os especialistas de cada token especulado sequencialmente através da DDR5, o que em conteúdo de raciocínio na verdade regride o desempenho — a sobrecarga do draft supera o ganho de aceitação. O fork ik implementa operações MoE fundidas que agrupam leituras de especialistas para tokens especulados, transformando o MTP de um ganho de +4% para um ganho de +20%. O desenvolvedor relata 35 t/s de decode em um modelo de 122B a partir de uma única 3090 usando este fork.

Se você está descarregando especialistas para a RAM em qualquer modelo MoE, experimente ik_llama.cpp antes de desistir do MTP.

Custo Total da Montagem

~$1600 pela RAM
~$1600 por duas 3090s
~$400 pelo resto
Custo operacional: apenas eletricidade

📖 Leia a fonte completa: r/openclaw

👀 See Also

Guides

Construindo um Rig de Dados Financeiros Locais + IA Pessoal no Mac Studio

Um desenvolvedor relata sua jornada na construção de um sistema totalmente localizado de processamento de dados financeiros e assistente pessoal de IA em um Mac Studio, incluindo decisões de arquitetura, distribuição de memória, orquestração de cron e primeiras otimizações.

May 22, 2026, 12:19 AM UTC

OpenClawRadar

Guides

Dicas de configuração do OpenClaw baseadas na experiência de um usuário: MCP do Gmail, flags de perfil e problemas de rede

Um usuário executando o OpenClaw em um Mac via UTM com uma VM Ubuntu compartilha problemas de configuração específicos encontrados: o servidor MCP do Gmail requer o parâmetro html_body em vez de body, a flag --profile prod é necessária para evitar uma identidade dev embutida, e as chaves de API devem ser colocadas em auth-profiles.json via comando paste-token.

Mar 3, 2026, 10:45 AM UTC

OpenClawRadar

Guides

Aproveitando as Habilidades do Agente para Escrever Kernels CUDA com Upskill

A Hugging Face apresenta uma abordagem prática para aprimorar modelos na escrita de kernels CUDA usando a nova ferramenta Upskill, melhorando a eficiência do modelo por meio de habilidades de agentes.

Feb 13, 2026, 10:45 AM UTC

OpenClawRadar

Guides

Fluxo de Trabalho de IA Estruturado com Comandos Baseados em Fases para Reduzir Retrabalho

Um desenvolvedor compartilha um fluxo de trabalho programável usando comandos específicos como /pwf-brainstorm e /pwf-work-plan para abordar problemas comuns de codificação com IA: perda de contexto, padrões quebrados e planejamento/execução misturados. A abordagem inclui atualizações obrigatórias de documentação e uma estrutura de projeto multi-raiz.

Mar 21, 2026, 03:45 PM UTC

OpenClawRadar