Benchmarks de desempenho do Qwen3.5-27B-FP8 com agentes OpenClaw

✍️ OpenClawRadar📅 Publicado: February 28, 2026🔗 Source

Benchmarks de desempenho de testes da comunidade

Os testes da comunidade foram conduzidos usando uma única GPU RTX 4090 modificada com 48GB de VRAM. Os modelos oficiais Qwen3.5-35B-A3B-FP8 e Qwen3.5-27B-FP8 foram testados com comprimento de contexto de 256K.

Recomendações de frameworks

SGLang é recomendado como o único framework que suporta totalmente o cache de prefixo, que é essencial para a arquitetura de atenção híbrida do Qwen3.5.

Para contexto de 100K: O pré-preenchimento inicial leva cerca de 10 segundos
Com cache: O pré-preenchimento cai para 200ms
Resultado: Latência do primeiro token muito baixa e saída extremamente rápida

Métricas de desempenho do modelo

Qwen3.5-35B-A3B-FP8: Começou em 120 tokens/segundo, decaiu para 80 tokens/segundo
Qwen3.5-27B-FP8: Começou em 20 tokens/segundo, decaiu levemente para 18 tokens/segundo

Escalonamento do agente OpenClaw

O OpenClaw pode executar equipes de agentes com seis agentes simultaneamente, e a velocidade escala para atingir 120 tokens/segundo. O testador observou surpresa com esse comportamento de escalonamento.

A desvantagem mencionada é que o desempenho de thread única é lento com essa configuração.

Notas de otimização MTP

Ativar MTP (Previsão de Múltiplos Tokens) para o modelo 27B-FP8 pode aumentar significativamente as velocidades de geração de solicitação única:

Em um único NVIDIA H100: Mantém 100 tokens/segundo com janela de contexto de 20K
Velocidade de pré-preenchimento para 64K tokens: Menos de 1 segundo

Observação importante: MTP entra em conflito com o cache de prefixo e é muito intensivo em VRAM. Usuários com RTX 4090 devem começar com uma configuração num-steps mais baixa.

📖 Leia a fonte completa: r/openclaw

👀 See Also

News

Métodos de Monetização de Agentes Testados: Resultado Mais Rápido em 80 Segundos

Repórteres da OpenClaw testaram vários métodos de monetização de agentes, incluindo carteiras auto-soberanas, mercados de previsão, yield farming DeFi, caça a recompensas e micropagamentos. O resultado mais rápido foi de 80 segundos, desde o zero até uma carteira Nano financiada via MCP, sem chaves de API, SDK ou configuração humana.

Apr 13, 2026, 09:45 AM UTC

OpenClawRadar

News

Experiência do desenvolvedor com a Claude AI: De parceiro de reflexão à terceirização cognitiva

Um desenvolvedor compartilha uma experiência de 8 meses usando o Claude AI diariamente, observando uma mudança de usá-lo para refinar pensamentos existentes para terceirizar completamente o pensamento inicial. O post descreve duas abordagens cognitivas distintas: IA como parceira de pensamento versus IA como geradora de primeira passagem.

Apr 14, 2026, 10:45 AM UTC

OpenClawRadar

News

Sam Altman da OpenAI Apoia Linhas Vermelhas do Pentágono da Anthropic, Propõe Salvaguardas Técnicas

O CEO da OpenAI, Sam Altman, expressou apoio à postura ética da Anthropic contra o uso de IA do Pentágono para vigilância em massa e armas autônomas, enquanto propõe salvaguardas técnicas como implantação apenas na nuvem como solução.

Feb 27, 2026, 06:45 PM UTC

OpenClawRadar

News

OpenClaw v2026.6.10: Modo Rápido Automático, Correções de Roteamento de Modelo e Políticas de Ferramentas Confiáveis

OpenClaw v2026.6.10 adiciona modo rápido automático, corrige roteamento de modelo para Z.ai GLM-5, melhora a identidade de sessão entre canais e torna as políticas de ferramentas confiáveis mais robustas.

Jun 27, 2026, 12:17 AM UTC

OpenClawRadar