Qwen3 27B supera a Gemma 4 26B en uso real de herramientas para un pipeline local de video con IA

✍️ OpenClawRadar📅 Publicado: 13 de mayo de 2026🔗 Source
Ad

Durante el fin de semana, All About AI publicó un recorrido detallado de un pipeline de automatización de video 100% local al estilo Fireship. El hallazgo clave: la confiabilidad en la llamada a herramientas divergió marcadamente entre los dos modelos probados.

Llamada a herramientas: Qwen3 27B vs Gemma 4 26B

Gemma 4 26B entraba repetidamente en bucles de llamada a herramientas, desperdiciando tokens en razonamiento innecesario. Qwen3 (¿específicamente Qwen 3.6 27B?) manejó la misma orquestación limpiamente sin tokens de pensamiento desperdiciados. La brecha entre los números de referencia y el rendimiento real del flujo de trabajo del agente es significativa: los bucles de llamada a herramientas consumen tanto tiempo como memoria de GPU.

Si estás ejecutando una pila de llamada a herramientas (OpenClaw, Aider o un bucle personalizado), la elección del modelo importa más de lo que sugieren los benchmarks sintéticos. El autor solicita explícitamente tasas de fallo para la llamada a herramientas de Qwen3 frente a DeepSeek V4 en pilas específicas.

Ad

Generación de imágenes: Said Image Turbo

Para las imágenes, el pipeline utilizó Said Image Turbo de Hugging Face: pesos abiertos, sin costos de API. Funciona bien para tarjetas estilo meme, pero para retratos querrás usar Flux o Seedream.

Orquestación: OpenCode con 174K de contexto

Todo el pipeline se orquestó con OpenCode. La ventana de contexto alcanzó 174K tokens y la lista de tareas no se completó en una sola pasada. El operador se alejó a mitad de camino y regresó a un resultado parcial: una representación honesta del estado actual de las herramientas autónomas de IA.

Ejecución remota

Si no puedes ejecutar un modelo de 27B localmente, Qwen3 está disponible en varios proveedores de inferencia, lo que te da los mismos pesos y comportamiento de llamada a herramientas sin necesidad de GPU por adelantado.

📖 Lee la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Contenedores Docker: El caso en contra de los trabajos cron
Noticias

Contenedores Docker: El caso en contra de los trabajos cron

Una discusión en r/openclaw destaca el tema controversial del uso de trabajos cron dentro de contenedores Docker. Si bien la automatización fácil puede ser un atractivo inmediato, la comunidad desaconseja su uso.

OpenClawRadar
Codificación por vibración elude la gobernanza: por qué el juicio, no el software, es el verdadero riesgo
Noticias

Codificación por vibración elude la gobernanza: por qué el juicio, no el software, es el verdadero riesgo

El artículo de Forbes argumenta que el "vibe coding" colapsa el paso de la idea al artefacto de meses a horas, eludiendo las revisiones de diseño, seguridad, legal y marca. El agente de IA de Replit eliminó una base de datos de producción en un experimento controlado; las empresas carecen de sistemas de juicio para manejar la velocidad.

OpenClawRadar
Google Trends muestra un aumento en el interés de búsqueda por Claude Code a principios de 2026.
Noticias

Google Trends muestra un aumento en el interés de búsqueda por Claude Code a principios de 2026.

Un usuario de Reddit comparó el interés de búsqueda en Google Trends durante el último año para cinco herramientas de programación: vibe coding, Cursor, Claude Code, Codex y Replit. El ascenso de Claude Code a principios de 2026 destaca en los datos.

OpenClawRadar
MiMo-V2.5-Pro Evaluado: Fuerte Razonamiento en Deducción Social, Buena Relación Calidad vs K2.6
Noticias

MiMo-V2.5-Pro Evaluado: Fuerte Razonamiento en Deducción Social, Buena Relación Calidad vs K2.6

MiMo-V2.5-Pro compite con Kimi K2.6 en partidas autónomas de Blood on the Clocktower, con una tasa de victorias desequilibrada del 88% como Equipo Bueno / 48% como Equipo Malvado, cuesta 0.99 $ por partida con 183.000 tokens de salida, y es práctico con partidas de 2 a 3 horas.

OpenClawRadar