Gemma 4 31B превосходит GLM 5 и Claude Sonnet в FoodTruck Bench

Результаты тестирования и анализ

Gemma 4 31B заняла 3-е место в тесте FoodTruck Bench, превзойдя несколько более крупных и известных моделей. Согласно обсуждению на Reddit, модель обошла GLM 5, Qwen 3.5 397B и все варианты Claude Sonnet.

FoodTruck Bench — это тест, который проверяет языковые модели на сложных многоэтапных задачах планирования. Автор исходного поста предполагает, что результаты Gemma 4 указывают на то, что она лучше справляется с долгосрочными задачами, чем предыдущие модели, которые не смогли пройти тест. В частности, модель, по-видимому, эффективно прислушивается к собственным рекомендациям при планировании последующих шагов в последовательности задач.

Этот результат примечателен, поскольку Gemma 4 31B значительно меньше некоторых моделей, которые она превзошла. Например, Qwen 3.5 397B имеет примерно в 12,8 раз больше параметров, чем Gemma 4 31B. Результаты показывают, что архитектура модели и подходы к обучению могут быть столь же важны, как и количество параметров, для определённых типов задач на логическое мышление.

FoodTruck Bench тестирует модели на практических сценариях планирования, требующих сохранения контекста в течение длинных последовательностей действий. Дизайн теста делает его особенно актуальным для разработчиков, работающих с ИИ-агентами, которым необходимо выполнять многоэтапные задачи в реальных приложениях.

📖 Read the full source: r/LocalLLaMA

Gemma 4 31B превосходит более крупные модели на тесте FoodTruck Bench.

Результаты тестирования и анализ

👀 Смотрите также

Atlassian сокращает 10% сотрудников для финансирования инвестиций в ИИ.

Qwen 35B-A3B как постоянно активный агент на 16 ГБ M4 Mac: отказ ввода-вывода на диск до возникновения проблем с ОЗУ

Claude Code 2.1.132: Многоагентные документы, планирование шлюзов, изменения ограничений навыков

Ошибка биллинга в дизайне Claude: покупка дополнительного использования не применяется, бот поддержки блокирует платящих пользователей