Gemma 4 31B supera a Qwen 3.5 397B en FoodTruck Bench

Resultados y análisis del benchmark

Gemma 4 31B logró el tercer lugar en el benchmark FoodTruck Bench, superando a varios modelos más grandes y establecidos. Según la discusión en Reddit, el modelo venció a GLM 5, Qwen 3.5 397B y todas las variantes de Claude Sonnet.

FoodTruck Bench es un benchmark que prueba modelos de lenguaje en tareas complejas de planificación de múltiples pasos. El autor original especula que el rendimiento de Gemma 4 sugiere que maneja mejor las tareas de largo plazo que modelos anteriores que no completaron el benchmark. Específicamente, el modelo parece escuchar efectivamente sus propios consejos al planificar los pasos posteriores en la secuencia de tareas.

Este resultado es notable porque Gemma 4 31B es significativamente más pequeño que algunos de los modelos que superó. Qwen 3.5 397B, por ejemplo, tiene aproximadamente 12.8 veces más parámetros que Gemma 4 31B. El rendimiento sugiere que la arquitectura del modelo y los enfoques de entrenamiento pueden ser tan importantes como el número de parámetros para ciertos tipos de tareas de razonamiento.

FoodTruck Bench prueba modelos en escenarios de planificación práctica que requieren mantener el contexto a lo largo de secuencias extendidas de acciones. El diseño del benchmark lo hace particularmente relevante para desarrolladores que trabajan con agentes de IA que necesitan ejecutar tareas de múltiples pasos en aplicaciones del mundo real.

📖 Read the full source: r/LocalLLaMA

Gemma 4 31B supera a modelos más grandes en FoodTruck Bench.

Resultados y análisis del benchmark

👀 Ver también

Investigación: Los agentes de Claude Code muestran contenido de MEMORY.md no verificado debido a cambios de compactación

Claude Code v2.1.183: Modo Automático más Seguro, Correcciones en TUI y Bloqueo de Comandos Git Destructivos

Delve es acusado de bifurcar el SimStudio de código abierto de Sim.ai y venderlo como Pathways.

Claude Fable 5 benchmarks: 59.8% funcional, 19% seguridad, récord de trampas y tiempos de espera