Granite 4.1 8B vs 32B MoE: Бенчмарки и сравнение

IBM выпустила Granite 4.1, семейство языковых моделей с открытым исходным кодом (Apache 2.0) размером 3B, 8B и 30B. Все используют плотный трансформер декодерного типа — никакого MoE, никаких длинных цепочек рассуждений. Модель 8B выделяется: она соответствует или превосходит предыдущую Granite 4.0-H-Small (32B MoE, 9B активных) по нескольким бенчмаркам.

Ключевые результаты бенчмарков

ArenaHard (качество реальных запросов): 8B набирает 69,0, 32B MoE — ниже.
BFCL V3 (вызов инструментов): 8B набирает 68,3, 32B MoE — 64,7.
GSM8K (математические рассуждения): 8B достигает 92,5.
AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B стабильно превосходит более крупную модель.

Конвейер обучения

Granite 4.1 обучалась на 15 триллионах токенов в пять этапов с изменяющимся составом данных:

Этап 1: 59% CommonCrawl, 20% код, 7% математика.
Этап 2: математика возрастает до 35%, код до 30%.
Этапы 3-4: смесь цепочек рассуждений, инструктивных данных и высококачественного веб-контента.
Этап 5: расширение контекстного окна до 512K токенов (8B и 30B).

Ключевой вывод: качество данных важнее масштабирования параметров. Конвейер фильтрации данных IBM отбрасывает примеры с галлюцинациями или игнорированием инструкций во время тонкой настройки, чтобы избежать обучения на плохих сигналах.

Почему это важно для ИИ-агентов

Плотные модели обеспечивают предсказуемую задержку и стоимость — нет накладных расходов на маршрутизацию. Для разработчиков, использующих ИИ-агенты кодирования, модель 8B Granite 4.1 обеспечивает хорошее использование инструментов и математические рассуждения при малой доле вычислительных затрат по сравнению с моделями MoE.

📖 Читайте полный источник: HN AI Agents

Granite 4.1: Плотная модель IBM на 8B параметров сравнивается с 32B MoE в бенчмарках

Ключевые результаты бенчмарков

Конвейер обучения

Почему это важно для ИИ-агентов

👀 Смотрите также

Обновление статуса: Claude Sonnet 4.5 испытывает повышенное количество ошибок

Клод удваивает лимиты использования вне пиковых часов на две недели.

Реальная общественная реакция против ИИ: насилие, данные опросов и убывающая отдача

Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth