Qwen3.5-122B no Blackwell: Corrupção Cache KV fp8 e Ganho 2,75x MTP

Principais Descobertas do Teste do Qwen3.5-122B no Blackwell SM120

Um teste detalhado do Qwen3.5-122B em hardware 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) com SGLang revelou problemas críticos de configuração e características de desempenho. A descoberta mais significativa: o cache KV fp8_e4m3 não falha, mas produz silenciosamente saída corrompida sem erros ou avisos - apenas pontos de exclamação e repetição em vez de respostas adequadas. A única correção é usar o cache KV bf16 em vez disso.

Requisitos de Configuração

As camadas DeltaNet no Qwen3.5-122B adicionam restrições que os modelos MoE padrão não possuem. A configuração exigiu 6 sinalizadores específicos do backend Triton no hardware SM120:

Backend de atenção forçado para Triton (para camadas DeltaNet)
Cache KV forçado para bf16 (fp8 corrompe a saída)
Sem gráficos CUDA (devido a estouro de SMEM do Triton)
Sem HiCache (incompatível com DeltaNet)

Isso contrasta com o teste M2.5 no mesmo hardware, que precisou apenas de 2 sinalizadores do backend Triton.

Benchmarks de Desempenho

Todos os testes usaram o mesmo hardware e metodologia com SGLang nightly (cu13 20260219), TP=8:

Tokens/s em rajada: 1.985 vs 1.818 (Qwen3.5-122B vs M2.5)
Online 4 rps: 310 vs 404
Online 8 rps: 514 vs 744
Tokens/s em solicitação única: ~25 (com MTP) vs 72
Qualidade Arena-Hard: 6,99/10 vs 4,94/10 (avaliado por Claude Opus 4.6, não comparável aos resultados do ranking)

Resultados de Otimização

Dos caminhos de otimização testados, o MTP (Previsão de Múltiplos Tokens) foi o único que melhorou materialmente o desempenho, proporcionando uma aceleração de 2,75x em solicitação única (~9 para ~25 tokens/s). Outras otimizações disponíveis no hardware SM120 - cache KV FP8, gráficos CUDA e HiCache - foram bloqueadas pelas restrições do DeltaNet no Qwen3.5-122B.

O Qwen3.5-122B vence em taxa de transferência de rajada e métricas de qualidade, enquanto o M2.5 ainda vence em todas as métricas de serviço sustentado devido à capacidade de usar as otimizações que o DeltaNet do Qwen3.5-122B bloqueia.

Resultados completos, matriz de compatibilidade, comandos exatos de reprodução e todos os artefatos JSONL estão disponíveis no problema do GitHub vinculado abaixo.

📖 Leia a fonte completa: r/LocalLLaMA

Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho

Principais Descobertas do Teste do Qwen3.5-122B no Blackwell SM120

Requisitos de Configuração

Benchmarks de Desempenho

Resultados de Otimização

👀 See Also

Portão de Atenção: O Desafio do Esquecimento Seletivo em Sistemas de Memória de IA

Protocolo de Convergência Quumble v5: Resultados de Experimentos com LLM de Arquitetura Cruzada

Qwen3.6-27B cabe em uma única GPU de 24 GB e supera o anterior 397B MoE no SWE-bench

Comunidade ClawbBot Discute Possíveis Melhorias na Interface