Gemma 4 31B превосходит более крупные модели на тесте FoodTruck Bench.

Результаты тестирования и анализ
Gemma 4 31B заняла 3-е место в тесте FoodTruck Bench, превзойдя несколько более крупных и известных моделей. Согласно обсуждению на Reddit, модель обошла GLM 5, Qwen 3.5 397B и все варианты Claude Sonnet.
FoodTruck Bench — это тест, который проверяет языковые модели на сложных многоэтапных задачах планирования. Автор исходного поста предполагает, что результаты Gemma 4 указывают на то, что она лучше справляется с долгосрочными задачами, чем предыдущие модели, которые не смогли пройти тест. В частности, модель, по-видимому, эффективно прислушивается к собственным рекомендациям при планировании последующих шагов в последовательности задач.
Этот результат примечателен, поскольку Gemma 4 31B значительно меньше некоторых моделей, которые она превзошла. Например, Qwen 3.5 397B имеет примерно в 12,8 раз больше параметров, чем Gemma 4 31B. Результаты показывают, что архитектура модели и подходы к обучению могут быть столь же важны, как и количество параметров, для определённых типов задач на логическое мышление.
FoodTruck Bench тестирует модели на практических сценариях планирования, требующих сохранения контекста в течение длинных последовательностей действий. Дизайн теста делает его особенно актуальным для разработчиков, работающих с ИИ-агентами, которым необходимо выполнять многоэтапные задачи в реальных приложениях.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Atlassian сокращает 10% сотрудников для финансирования инвестиций в ИИ.
Atlassian сокращает 1600 рабочих мест (10% персонала) для самостоятельного финансирования инвестиций в ИИ и укрепления своего финансового профиля, при этом затронуты 900 позиций в разработке программного обеспечения. Генеральный директор Майк Кэннон-Брукс заявляет, что ИИ не заменяет людей, но меняет требования к навыкам.

Qwen 35B-A3B как постоянно активный агент на 16 ГБ M4 Mac: отказ ввода-вывода на диск до возникновения проблем с ОЗУ
Запуск Qwen 35B-A3B с llama.cpp на 16GB M4 Mac работает для пакетного вывода, но постоянный агентный цикл вместе с Claude Code и Codex CLI вызывает конкуренцию за SSD, что приводит к нестабильности системы и пропущенным задачам cron, несмотря на достаточный объем RAM.

Claude Code 2.1.132: Многоагентные документы, планирование шлюзов, изменения ограничений навыков
Релиз v2.1.132 добавляет документацию по Managed Agents для мультиагентных сессий, результатов и вебхуков; вводит шлюз по умолчанию для проактивных предложений /schedule; снижает задокументированный лимит навыков с 64 до 20 на агента.

Ошибка биллинга в дизайне Claude: покупка дополнительного использования не применяется, бот поддержки блокирует платящих пользователей
Пользователь Claude Design заплатил $20 за дополнительное использование через поток покупок в приложении, но кредиты не применяются к отдельному лимиту использования Claude Design. Бот поддержки Fin неправильно понимает проблему, зацикливается на нерелевантных ответах и блокирует новые заявки без возможности эскалации человеку.