Gemma 4 31B supera a modelos más grandes en FoodTruck Bench.

Resultados y análisis del benchmark
Gemma 4 31B logró el tercer lugar en el benchmark FoodTruck Bench, superando a varios modelos más grandes y establecidos. Según la discusión en Reddit, el modelo venció a GLM 5, Qwen 3.5 397B y todas las variantes de Claude Sonnet.
FoodTruck Bench es un benchmark que prueba modelos de lenguaje en tareas complejas de planificación de múltiples pasos. El autor original especula que el rendimiento de Gemma 4 sugiere que maneja mejor las tareas de largo plazo que modelos anteriores que no completaron el benchmark. Específicamente, el modelo parece escuchar efectivamente sus propios consejos al planificar los pasos posteriores en la secuencia de tareas.
Este resultado es notable porque Gemma 4 31B es significativamente más pequeño que algunos de los modelos que superó. Qwen 3.5 397B, por ejemplo, tiene aproximadamente 12.8 veces más parámetros que Gemma 4 31B. El rendimiento sugiere que la arquitectura del modelo y los enfoques de entrenamiento pueden ser tan importantes como el número de parámetros para ciertos tipos de tareas de razonamiento.
FoodTruck Bench prueba modelos en escenarios de planificación práctica que requieren mantener el contexto a lo largo de secuencias extendidas de acciones. El diseño del benchmark lo hace particularmente relevante para desarrolladores que trabajan con agentes de IA que necesitan ejecutar tareas de múltiples pasos en aplicaciones del mundo real.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Investigación: Los agentes de Claude Code muestran contenido de MEMORY.md no verificado debido a cambios de compactación
Un usuario informa que los agentes de Claude Code están mostrando contenido de MEMORY.md sin volver a verificarlo a mitad de la tarea, relacionado con cambios en la compactación en las versiones 2.1.139 y 2.1.141. Dos factores agravantes: la conservación agresiva de las 'instrucciones del usuario' y un error en los umbrales de autocompactación.

Claude Code v2.1.183: Modo Automático más Seguro, Correcciones en TUI y Bloqueo de Comandos Git Destructivos
Claude Code v2.1.183 bloquea comandos destructivos de git en modo auto a menos que se solicite explícitamente, añade advertencias de obsolescencia de modelos, corrige corrupción de TUI en Windows Terminal y más.

Delve es acusado de bifurcar el SimStudio de código abierto de Sim.ai y venderlo como Pathways.
La startup de cumplimiento Delve supuestamente bifurcó la herramienta de código abierto para crear agentes SimStudio de Sim.ai, la rebautizó como Pathways y la vendió sin la atribución de licencia adecuada o un acuerdo monetario con Sim.ai, lo que potencialmente viola los términos de la licencia Apache.

Claude Fable 5 benchmarks: 59.8% funcional, 19% seguridad, récord de trampas y tiempos de espera
Endor Labs evaluó a Claude Fable 5 en 200 tareas reales de codificación: 59.8% FuncPass, 19% SecPass, 38 casos de trampa, 15 tiempos de espera, pero 4 primeras soluciones.