Resultados de Benchmark para os Modelos Qwen3.5 com Contexto de 2K a 400K no RTX 4090

✍️ OpenClawRadar📅 Publicado: March 7, 2026🔗 Source
Resultados de Benchmark para os Modelos Qwen3.5 com Contexto de 2K a 400K no RTX 4090
Ad

Testes de Desempenho do Qwen3.5 na RTX 4090

Um desenvolvedor compartilhou resultados de benchmark para modelos Qwen3.5 executando em uma GPU RTX 4090, testando janelas de contexto de 2.048 a 400.000 tokens. Os testes foram originalmente planejados para contexto de 262k, mas foram estendidos para 400k usando yarn e outros métodos.

Modelos Testados

As seguintes variantes do modelo Qwen3.5 foram avaliadas:

  • Qwen3.5-0.8B-Q4_K_M
  • Qwen3.5-0.8B-bf16
  • Qwen3.5-2B-Q4_K_M
  • Qwen3.5-2B-bf16
  • Qwen3.5-4B-Q4_K_M
  • Qwen3.5-4B-bf16
  • Qwen3.5-9B-Q4_K_M
  • Qwen3.5-9B-bf16
  • Qwen3.5-27B-Q4_K_M
  • Qwen3.5-35B-A3B-Q4_K_M

Janelas de Contexto Testadas

Os modelos foram avaliados nestes comprimentos de contexto específicos: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 e 400000 tokens.

Metodologia de Teste

O script de benchmark foi configurado para alcançar a melhor velocidade possível em tokens/segundo usando configurações NGL com cache KV de 8 bits e 4 bits. O desenvolvedor observou que, embora o tempo inicial para o primeiro token (TTFT) pareça longo, a coluna Warm TTFT Avg (s) mostra melhor desempenho uma vez que o cache KV é carregado. O contexto foi totalmente carregado na primeira interação intencionalmente.

Para testar as capacidades de contexto, os modelos receberam um prompt de 1 frase para resumir logs, seguido por 2k a 400k tokens de dados de log. O desenvolvedor relatou algumas discrepâncias, mas desempenho geral satisfatório.

Ad

Status Atual e Próximos Passos

Três modelos falharam durante os testes e estão passando por testes de descarga KV: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M e Qwen3.5-35B-A3B-Q4_K_M. O desenvolvedor teve que reiniciar esses testes após um problema no script desperdiçar 24 horas de tempo de execução.

Uma vez que os testes de descarga de VRAM sejam concluídos, o desenvolvedor planeja comparar os resultados com modelos fundamentais e salvou as saídas para análise. O desenvolvedor expressou particular surpresa com o desempenho dos modelos densos de 9B e 27B.

O desenvolvedor está buscando contribuições da comunidade sobre quais modelos comparar e qual metodologia de avaliação usar para a classificação.

📖 Leia a fonte completa: r/openclaw

Ad

👀 See Also

OpenClaw v2026.3.11-beta.1 lançado com modelos de IA gratuitos, mudança disruptiva no cron
News

OpenClaw v2026.3.11-beta.1 lançado com modelos de IA gratuitos, mudança disruptiva no cron

OpenClaw v2026.3.11-beta.1 apresenta dois modelos de IA gratuitos no OpenRouter com janelas de contexto de 1M, corrige chamadas de ferramentas de codificação Kimi, adiciona suporte ao provedor OpenCode e inclui uma mudança disruptiva para notificações de tarefas cron.

OpenClawRadar
Dois Erros de IA em Uma Demo: Claude Code Corrige Ortografia em Vez de Erro de Esquema, OpenAI Bagunça Mapeamento de Campo Personalizado
News

Dois Erros de IA em Uma Demo: Claude Code Corrige Ortografia em Vez de Erro de Esquema, OpenAI Bagunça Mapeamento de Campo Personalizado

Durante um workshop ao vivo, o Claude Code ignorou um erro de validação de esquema JSON para corrigir avisos de ortografia, e a OpenAI retornou lixo na primeira tentativa de mapear campos personalizados estranhos do Salesforce.

OpenClawRadar
O modelo ternário Bonsai 1.7B atinge 442 T/s no M4 Max com kernels Metal ajustados autonomamente
News

O modelo ternário Bonsai 1.7B atinge 442 T/s no M4 Max com kernels Metal ajustados autonomamente

O agente autônomo ata otimizou kernels Metal para Bonsai 1.7B Q2_0, alcançando 442 t/s decodificação (+42%) e 4622 t/s prefill (+9%) no M4 Max vs llama.cpp não modificado.

OpenClawRadar
Anthropic aplica política: uso de Claude por terceiros deixa de ser coberto pelos limites de assinatura
News

Anthropic aplica política: uso de Claude por terceiros deixa de ser coberto pelos limites de assinatura

A Anthropic está implementando uma mudança de política a partir de 4 de abril, onde ferramentas de terceiros como o OpenClaw não consumirão mais dos limites de uso da assinatura do Claude, exigindo que os usuários ativem uso extra ou cancelem até 9 de abril para reembolso.

OpenClawRadar