Evaluaciones de rendimiento de Qwen3.5-27B-FP8 con agentes OpenClaw

✍️ OpenClawRadar📅 Publicado: 28 de febrero de 2026🔗 Source

Benchmarks de rendimiento de pruebas comunitarias

Las pruebas comunitarias se realizaron utilizando una única GPU RTX 4090 modificada con 48 GB de VRAM. Se probaron los modelos oficiales Qwen3.5-35B-A3B-FP8 y Qwen3.5-27B-FP8 con una longitud de contexto de 256K.

Recomendaciones de frameworks

Se recomienda SGLang como el único framework que soporta completamente el caché de prefijo, lo cual es esencial para la arquitectura de atención híbrida de Qwen3.5.

Para contexto de 100K: El prellenado en frío toma unos 10 segundos
Con caché: El prellenado se reduce a 200 ms
Resultado: Latencia del primer token muy baja y salida extremadamente rápida

Métricas de rendimiento del modelo

Qwen3.5-35B-A3B-FP8: Comenzó a 120 tokens/segundo, decayó a 80 tokens/segundo
Qwen3.5-27B-FP8: Comenzó a 20 tokens/segundo, decayó ligeramente a 18 tokens/segundo

Escalado de agentes OpenClaw

OpenClaw puede ejecutar equipos de agentes con seis agentes simultáneamente, y la velocidad escala hasta alcanzar 120 tokens/segundo. El probador notó sorpresa por este comportamiento de escalado.

La desventaja mencionada es que el rendimiento de un solo hilo es lento con esta configuración.

Notas de optimización MTP

Habilitar MTP (Predicción de Múltiples Tokens) para el modelo 27B-FP8 puede aumentar significativamente las velocidades de generación de una sola solicitud:

En una sola NVIDIA H100: Mantiene 100 tokens/segundo con ventana de contexto de 20K
Velocidad de prellenado para 64K tokens: Menos de 1 segundo

Advertencia importante: MTP entra en conflicto con el caché de prefijo y es muy intensivo en VRAM. Los usuarios con RTX 4090 deben comenzar con una configuración num-steps más baja.

📖 Leer la fuente completa: r/openclaw

👀 Ver también

Noticias

Claude Sonnet 4.5 experimenta errores elevados — Actualización de estado

Claude Sonnet 4.5 está experimentando actualmente errores elevados desde 2026-04-28T13:29:56.000Z. Consulta la página de estado y el megathread de Reddit para obtener actualizaciones.

30 abr 2026, 06:19 UTC

OpenClawRadar

Noticias

Claude Code v2.1.117 Lanzamiento: Bifurcación de Subagentes, Mejoras en Complementos y Correcciones de Rendimiento

Claude Code v2.1.117 habilita subagentes bifurcados en compilaciones externas mediante CLAUDE_CODE_FORK_SUBAGENT=1, mejora el manejo de dependencias de complementos y corrige los cálculos de la ventana de contexto de Opus 4.7. La versión incluye un inicio más rápido con conexiones MCP concurrentes y reemplaza las herramientas Glob/Grep con bfs/ugrep integrados en macOS/Linux.

22 abr 2026, 02:15 UTC

OpenClawRadar

Noticias

Codex Converses: El Sucesor de OpenClaw en la Automatización de IA

Codex ahora puede comunicarse consigo mismo, marcando el comienzo de una nueva era en la automatización impulsada por IA y reemplazando eficazmente a OpenClaw, el anterior líder del sector.

20 abr 2026, 17:38 UTC

OpenClawRadar

Noticias

Los agentes de codificación con IA tienen dificultades para gestionar el contexto en bases de código grandes.

El análisis de los agentes de codificación con IA revela que dedican entre 15 y 20 llamadas a herramientas en tareas de orientación, como buscar rutas con grep y leer middleware, antes de escribir código, consumiendo rápidamente las ventanas de contexto. Vercel logró un 100% de precisión al eliminar el 80% de las herramientas y usar bash, mientras que Pi utiliza solo 4 herramientas y un prompt de sistema de menos de 1.000 tokens.

18 mar 2026, 21:45 UTC

OpenClawRadar