Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho

✍️ OpenClawRadar📅 Publicado: March 1, 2026🔗 Source
Qwen3.5-122B no Blackwell SM120: Problema de Corrupção do Cache KV em fp8 e Descobertas de Desempenho
Ad

Principais Descobertas do Teste do Qwen3.5-122B no Blackwell SM120

Um teste detalhado do Qwen3.5-122B em hardware 8x RTX PRO 6000 Blackwell (AWS g7e.48xlarge, SM120) com SGLang revelou problemas críticos de configuração e características de desempenho. A descoberta mais significativa: o cache KV fp8_e4m3 não falha, mas produz silenciosamente saída corrompida sem erros ou avisos - apenas pontos de exclamação e repetição em vez de respostas adequadas. A única correção é usar o cache KV bf16 em vez disso.

Requisitos de Configuração

As camadas DeltaNet no Qwen3.5-122B adicionam restrições que os modelos MoE padrão não possuem. A configuração exigiu 6 sinalizadores específicos do backend Triton no hardware SM120:

  • Backend de atenção forçado para Triton (para camadas DeltaNet)
  • Cache KV forçado para bf16 (fp8 corrompe a saída)
  • Sem gráficos CUDA (devido a estouro de SMEM do Triton)
  • Sem HiCache (incompatível com DeltaNet)

Isso contrasta com o teste M2.5 no mesmo hardware, que precisou apenas de 2 sinalizadores do backend Triton.

Ad

Benchmarks de Desempenho

Todos os testes usaram o mesmo hardware e metodologia com SGLang nightly (cu13 20260219), TP=8:

  • Tokens/s em rajada: 1.985 vs 1.818 (Qwen3.5-122B vs M2.5)
  • Online 4 rps: 310 vs 404
  • Online 8 rps: 514 vs 744
  • Tokens/s em solicitação única: ~25 (com MTP) vs 72
  • Qualidade Arena-Hard: 6,99/10 vs 4,94/10 (avaliado por Claude Opus 4.6, não comparável aos resultados do ranking)

Resultados de Otimização

Dos caminhos de otimização testados, o MTP (Previsão de Múltiplos Tokens) foi o único que melhorou materialmente o desempenho, proporcionando uma aceleração de 2,75x em solicitação única (~9 para ~25 tokens/s). Outras otimizações disponíveis no hardware SM120 - cache KV FP8, gráficos CUDA e HiCache - foram bloqueadas pelas restrições do DeltaNet no Qwen3.5-122B.

O Qwen3.5-122B vence em taxa de transferência de rajada e métricas de qualidade, enquanto o M2.5 ainda vence em todas as métricas de serviço sustentado devido à capacidade de usar as otimizações que o DeltaNet do Qwen3.5-122B bloqueia.

Resultados completos, matriz de compatibilidade, comandos exatos de reprodução e todos os artefatos JSONL estão disponíveis no problema do GitHub vinculado abaixo.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

A API do Claude apresentou taxas de erro elevadas em vários modelos em 25 de fevereiro de 2026.
News

A API do Claude apresentou taxas de erro elevadas em vários modelos em 25 de fevereiro de 2026.

A API do Claude em api.anthropic.com apresentou taxas de erro elevadas em vários modelos em 25 de fevereiro de 2026, com investigação iniciada às 17:15 UTC e resolução confirmada às 17:46 UTC.

OpenClawRadar
Anthropic adquire Stainless por mais de $300M — Agora possui o gerador de servidor MCP dominante
News

Anthropic adquire Stainless por mais de $300M — Agora possui o gerador de servidor MCP dominante

Anthropic comprou a Stainless, geradora de SDKs, por mais de US$ 300 milhões. A Stainless gera a maioria dos servidores MCP de produção a partir de especificações OpenAPI. O produto hospedado está sendo descontinuado; novas inscrições foram interrompidas na segunda-feira.

OpenClawRadar
SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify
News

SenseNova-U1-8B-MoT: Modelo Nativo Multimodal de Código Aberto com Arquitetura NEO-Unify

SenseNova lançou o SenseNova-U1-8B-MoT, um modelo multimodal nativo que elimina tanto o codificador visual quanto o VAE, usando a arquitetura NEO-Unify para compreensão, raciocínio e geração unificados. Ele se destaca em texto para infográficos, edição de imagens e geração intercalada de texto e imagem.

OpenClawRadar
Meta vai capturar movimentos do mouse e toques de teclado dos funcionários para treinamento de IA
News

Meta vai capturar movimentos do mouse e toques de teclado dos funcionários para treinamento de IA

A Meta planeja começar a capturar movimentos do mouse e teclas digitadas por funcionários para dados de treinamento de IA, de acordo com um relatório da Reuters. O artigo gerou discussão no Hacker News com 33 pontos e 7 comentários.

OpenClawRadar