Benchmarks de desempenho do Qwen3.5-27B-FP8 com agentes OpenClaw

✍️ OpenClawRadar📅 Publicado: February 28, 2026🔗 Source
Benchmarks de desempenho do Qwen3.5-27B-FP8 com agentes OpenClaw
Ad

Benchmarks de desempenho de testes da comunidade

Os testes da comunidade foram conduzidos usando uma única GPU RTX 4090 modificada com 48GB de VRAM. Os modelos oficiais Qwen3.5-35B-A3B-FP8 e Qwen3.5-27B-FP8 foram testados com comprimento de contexto de 256K.

Recomendações de frameworks

SGLang é recomendado como o único framework que suporta totalmente o cache de prefixo, que é essencial para a arquitetura de atenção híbrida do Qwen3.5.

  • Para contexto de 100K: O pré-preenchimento inicial leva cerca de 10 segundos
  • Com cache: O pré-preenchimento cai para 200ms
  • Resultado: Latência do primeiro token muito baixa e saída extremamente rápida

Métricas de desempenho do modelo

  • Qwen3.5-35B-A3B-FP8: Começou em 120 tokens/segundo, decaiu para 80 tokens/segundo
  • Qwen3.5-27B-FP8: Começou em 20 tokens/segundo, decaiu levemente para 18 tokens/segundo
Ad

Escalonamento do agente OpenClaw

O OpenClaw pode executar equipes de agentes com seis agentes simultaneamente, e a velocidade escala para atingir 120 tokens/segundo. O testador observou surpresa com esse comportamento de escalonamento.

A desvantagem mencionada é que o desempenho de thread única é lento com essa configuração.

Notas de otimização MTP

Ativar MTP (Previsão de Múltiplos Tokens) para o modelo 27B-FP8 pode aumentar significativamente as velocidades de geração de solicitação única:

  • Em um único NVIDIA H100: Mantém 100 tokens/segundo com janela de contexto de 20K
  • Velocidade de pré-preenchimento para 64K tokens: Menos de 1 segundo

Observação importante: MTP entra em conflito com o cache de prefixo e é muito intensivo em VRAM. Usuários com RTX 4090 devem começar com uma configuração num-steps mais baixa.

📖 Leia a fonte completa: r/openclaw

Ad

👀 See Also

Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros
News

Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros

A Anthropic implementou bloqueios no lado do servidor para assinaturas Claude Pro/Max usadas por meio de integrações OAuth de terceiros, citando o aproveitamento em larga escala de acesso subsidiado. A mudança de política inclui a cobrança de 'Uso Extra' que torna essas integrações economicamente inviáveis.

OpenClawRadar
Relatório de Índice de IA de Stanford 2026: Tendências Principais sobre Investimento, Modelos e Percepção Pública
News

Relatório de Índice de IA de Stanford 2026: Tendências Principais sobre Investimento, Modelos e Percepção Pública

O relatório Índice de IA 2026 de Stanford mostra que o investimento em IA está disparando, enquanto o impacto nos empregos e a percepção pública permanecem mistos. Empresas dos EUA lançaram 50 modelos de IA notáveis em 2025, com a China reduzindo a diferença.

OpenClawRadar
Atualizações do Claude Code Engineer: Pergunta ao Usuário em Markdown, Ganchos HTTP, Novas Habilidades
News

Atualizações do Claude Code Engineer: Pergunta ao Usuário em Markdown, Ganchos HTTP, Novas Habilidades

Claude Code Engineer lançou três atualizações: a ferramenta AskUserQuestion agora suporta snippets de markdown para diagramas e exemplos de código, um novo manipulador de hook HTTP permite que hooks postem em endpoints HTTP, e duas novas habilidades foram adicionadas.

OpenClawRadar
Claude MAX Agora Inclui Janela de Contexto de 1 Milhão de Tokens Sem Custo Adicional
News

Claude MAX Agora Inclui Janela de Contexto de 1 Milhão de Tokens Sem Custo Adicional

O plano Claude MAX foi atualizado automaticamente para incluir uma janela de contexto de 1 milhão de tokens sem custos adicionais baseados em API, com usuários relatando redução significativa no uso de tokens e eliminação da sobrecarga de gerenciamento da janela de contexto.

OpenClawRadar