Benchmarks de desempenho do Qwen3.5-27B-FP8 com agentes OpenClaw

Benchmarks de desempenho de testes da comunidade
Os testes da comunidade foram conduzidos usando uma única GPU RTX 4090 modificada com 48GB de VRAM. Os modelos oficiais Qwen3.5-35B-A3B-FP8 e Qwen3.5-27B-FP8 foram testados com comprimento de contexto de 256K.
Recomendações de frameworks
SGLang é recomendado como o único framework que suporta totalmente o cache de prefixo, que é essencial para a arquitetura de atenção híbrida do Qwen3.5.
- Para contexto de 100K: O pré-preenchimento inicial leva cerca de 10 segundos
- Com cache: O pré-preenchimento cai para 200ms
- Resultado: Latência do primeiro token muito baixa e saída extremamente rápida
Métricas de desempenho do modelo
- Qwen3.5-35B-A3B-FP8: Começou em 120 tokens/segundo, decaiu para 80 tokens/segundo
- Qwen3.5-27B-FP8: Começou em 20 tokens/segundo, decaiu levemente para 18 tokens/segundo
Escalonamento do agente OpenClaw
O OpenClaw pode executar equipes de agentes com seis agentes simultaneamente, e a velocidade escala para atingir 120 tokens/segundo. O testador observou surpresa com esse comportamento de escalonamento.
A desvantagem mencionada é que o desempenho de thread única é lento com essa configuração.
Notas de otimização MTP
Ativar MTP (Previsão de Múltiplos Tokens) para o modelo 27B-FP8 pode aumentar significativamente as velocidades de geração de solicitação única:
- Em um único NVIDIA H100: Mantém 100 tokens/segundo com janela de contexto de 20K
- Velocidade de pré-preenchimento para 64K tokens: Menos de 1 segundo
Observação importante: MTP entra em conflito com o cache de prefixo e é muito intensivo em VRAM. Usuários com RTX 4090 devem começar com uma configuração num-steps mais baixa.
📖 Leia a fonte completa: r/openclaw
👀 See Also

Antropico Bloqueia Assinaturas do Claude por Ferramentas de Terceiros
A Anthropic implementou bloqueios no lado do servidor para assinaturas Claude Pro/Max usadas por meio de integrações OAuth de terceiros, citando o aproveitamento em larga escala de acesso subsidiado. A mudança de política inclui a cobrança de 'Uso Extra' que torna essas integrações economicamente inviáveis.

Relatório de Índice de IA de Stanford 2026: Tendências Principais sobre Investimento, Modelos e Percepção Pública
O relatório Índice de IA 2026 de Stanford mostra que o investimento em IA está disparando, enquanto o impacto nos empregos e a percepção pública permanecem mistos. Empresas dos EUA lançaram 50 modelos de IA notáveis em 2025, com a China reduzindo a diferença.

Atualizações do Claude Code Engineer: Pergunta ao Usuário em Markdown, Ganchos HTTP, Novas Habilidades
Claude Code Engineer lançou três atualizações: a ferramenta AskUserQuestion agora suporta snippets de markdown para diagramas e exemplos de código, um novo manipulador de hook HTTP permite que hooks postem em endpoints HTTP, e duas novas habilidades foram adicionadas.

Claude MAX Agora Inclui Janela de Contexto de 1 Milhão de Tokens Sem Custo Adicional
O plano Claude MAX foi atualizado automaticamente para incluir uma janela de contexto de 1 milhão de tokens sem custos adicionais baseados em API, com usuários relatando redução significativa no uso de tokens e eliminação da sobrecarga de gerenciamento da janela de contexto.