Benchmark Qwen3.5: Desempenho de 2K a 400K Tokens no RTX 4090

Testes de Desempenho do Qwen3.5 na RTX 4090

Um desenvolvedor compartilhou resultados de benchmark para modelos Qwen3.5 executando em uma GPU RTX 4090, testando janelas de contexto de 2.048 a 400.000 tokens. Os testes foram originalmente planejados para contexto de 262k, mas foram estendidos para 400k usando yarn e outros métodos.

Modelos Testados

As seguintes variantes do modelo Qwen3.5 foram avaliadas:

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

Janelas de Contexto Testadas

Os modelos foram avaliados nestes comprimentos de contexto específicos: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 e 400000 tokens.

Metodologia de Teste

O script de benchmark foi configurado para alcançar a melhor velocidade possível em tokens/segundo usando configurações NGL com cache KV de 8 bits e 4 bits. O desenvolvedor observou que, embora o tempo inicial para o primeiro token (TTFT) pareça longo, a coluna Warm TTFT Avg (s) mostra melhor desempenho uma vez que o cache KV é carregado. O contexto foi totalmente carregado na primeira interação intencionalmente.

Para testar as capacidades de contexto, os modelos receberam um prompt de 1 frase para resumir logs, seguido por 2k a 400k tokens de dados de log. O desenvolvedor relatou algumas discrepâncias, mas desempenho geral satisfatório.

Status Atual e Próximos Passos

Três modelos falharam durante os testes e estão passando por testes de descarga KV: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M e Qwen3.5-35B-A3B-Q4_K_M. O desenvolvedor teve que reiniciar esses testes após um problema no script desperdiçar 24 horas de tempo de execução.

Uma vez que os testes de descarga de VRAM sejam concluídos, o desenvolvedor planeja comparar os resultados com modelos fundamentais e salvou as saídas para análise. O desenvolvedor expressou particular surpresa com o desempenho dos modelos densos de 9B e 27B.

O desenvolvedor está buscando contribuições da comunidade sobre quais modelos comparar e qual metodologia de avaliação usar para a classificação.

📖 Leia a fonte completa: r/openclaw

Resultados de Benchmark para os Modelos Qwen3.5 com Contexto de 2K a 400K no RTX 4090

Testes de Desempenho do Qwen3.5 na RTX 4090

Modelos Testados

Janelas de Contexto Testadas

Metodologia de Teste

Status Atual e Próximos Passos

👀 See Also

Cowork codifica esforço médio e ignora configurações do usuário para Claude Opus

Anthropic analisa 1 milhão de conversas do Claude: 6% buscam orientação pessoal, taxa de bajulação de 9%, melhorou no Opus 4.7

O Claude da Anthropic Realiza 80 Mil Entrevistas Estruturadas como Alternativa a Pesquisas

Primeiro GitHub Exclusivo para Agentes de IA Lançado: Beta Limitado para 100 Usuários