Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho

Principais Descobertas do Teste do Qwen3.5-122B no Blackwell SM120
Um teste detalhado do Qwen3.5-122B em hardware 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) com SGLang revelou problemas críticos de configuração e características de desempenho. A descoberta mais significativa: o cache KV fp8_e4m3 não falha, mas produz silenciosamente saída corrompida sem erros ou avisos - apenas pontos de exclamação e repetição em vez de respostas adequadas. A única correção é usar o cache KV bf16 em vez disso.
Requisitos de Configuração
As camadas DeltaNet no Qwen3.5-122B adicionam restrições que os modelos MoE padrão não possuem. A configuração exigiu 6 sinalizadores específicos do backend Triton no hardware SM120:
- Backend de atenção forçado para Triton (para camadas DeltaNet)
- Cache KV forçado para bf16 (fp8 corrompe a saída)
- Sem gráficos CUDA (devido a estouro de SMEM do Triton)
- Sem HiCache (incompatível com DeltaNet)
Isso contrasta com o teste M2.5 no mesmo hardware, que precisou apenas de 2 sinalizadores do backend Triton.
Benchmarks de Desempenho
Todos os testes usaram o mesmo hardware e metodologia com SGLang nightly (cu13 20260219), TP=8:
- Tokens/s em rajada: 1.985 vs 1.818 (Qwen3.5-122B vs M2.5)
- Online 4 rps: 310 vs 404
- Online 8 rps: 514 vs 744
- Tokens/s em solicitação única: ~25 (com MTP) vs 72
- Qualidade Arena-Hard: 6,99/10 vs 4,94/10 (avaliado por Claude Opus 4.6, não comparável aos resultados do ranking)
Resultados de Otimização
Dos caminhos de otimização testados, o MTP (Previsão de Múltiplos Tokens) foi o único que melhorou materialmente o desempenho, proporcionando uma aceleração de 2,75x em solicitação única (~9 para ~25 tokens/s). Outras otimizações disponíveis no hardware SM120 - cache KV FP8, gráficos CUDA e HiCache - foram bloqueadas pelas restrições do DeltaNet no Qwen3.5-122B.
O Qwen3.5-122B vence em taxa de transferência de rajada e métricas de qualidade, enquanto o M2.5 ainda vence em todas as métricas de serviço sustentado devido à capacidade de usar as otimizações que o DeltaNet do Qwen3.5-122B bloqueia.
Resultados completos, matriz de compatibilidade, comandos exatos de reprodução e todos os artefatos JSONL estão disponíveis no problema do GitHub vinculado abaixo.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A API do Claude apresentou taxas de erro elevadas em vários modelos em 25 de fevereiro de 2026.
A API do Claude em api.anthropic.com apresentou taxas de erro elevadas em vários modelos em 25 de fevereiro de 2026, com investigação iniciada às 17:15 UTC e resolução confirmada às 17:46 UTC.

Anthropic adquire Stainless por mais de $300M — Agora possui o gerador de servidor MCP dominante
Anthropic comprou a Stainless, geradora de SDKs, por mais de US$ 300 milhões. A Stainless gera a maioria dos servidores MCP de produção a partir de especificações OpenAPI. O produto hospedado está sendo descontinuado; novas inscrições foram interrompidas na segunda-feira.

SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify
SenseNova lançou o SenseNova-U1-8B-MoT, um modelo multimodal nativo que elimina tanto o codificador visual quanto o VAE, usando a arquitetura NEO-Unify para compreensão, raciocínio e geração unificados. Ele se destaca em texto para infográficos, edição de imagens e geração intercalada de texto e imagem.

Meta vai capturar movimentos do mouse e toques de teclado dos funcionários para treinamento de IA
A Meta planeja começar a capturar movimentos do mouse e teclas digitadas por funcionários para dados de treinamento de IA, de acordo com um relatório da Reuters. O artigo gerou discussão no Hacker News com 33 pontos e 7 comentários.