Granite 4.1: Плотная модель IBM на 8B параметров сравнивается с 32B MoE в бенчмарках

IBM выпустила Granite 4.1, семейство языковых моделей с открытым исходным кодом (Apache 2.0) размером 3B, 8B и 30B. Все используют плотный трансформер декодерного типа — никакого MoE, никаких длинных цепочек рассуждений. Модель 8B выделяется: она соответствует или превосходит предыдущую Granite 4.0-H-Small (32B MoE, 9B активных) по нескольким бенчмаркам.
Ключевые результаты бенчмарков
- ArenaHard (качество реальных запросов): 8B набирает 69,0, 32B MoE — ниже.
- BFCL V3 (вызов инструментов): 8B набирает 68,3, 32B MoE — 64,7.
- GSM8K (математические рассуждения): 8B достигает 92,5.
- AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B стабильно превосходит более крупную модель.
Конвейер обучения
Granite 4.1 обучалась на 15 триллионах токенов в пять этапов с изменяющимся составом данных:
- Этап 1: 59% CommonCrawl, 20% код, 7% математика.
- Этап 2: математика возрастает до 35%, код до 30%.
- Этапы 3-4: смесь цепочек рассуждений, инструктивных данных и высококачественного веб-контента.
- Этап 5: расширение контекстного окна до 512K токенов (8B и 30B).
Ключевой вывод: качество данных важнее масштабирования параметров. Конвейер фильтрации данных IBM отбрасывает примеры с галлюцинациями или игнорированием инструкций во время тонкой настройки, чтобы избежать обучения на плохих сигналах.
Почему это важно для ИИ-агентов
Плотные модели обеспечивают предсказуемую задержку и стоимость — нет накладных расходов на маршрутизацию. Для разработчиков, использующих ИИ-агенты кодирования, модель 8B Granite 4.1 обеспечивает хорошее использование инструментов и математические рассуждения при малой доле вычислительных затрат по сравнению с моделями MoE.
📖 Читайте полный источник: HN AI Agents
👀 Смотрите также

Обновление статуса: Claude Sonnet 4.5 испытывает повышенное количество ошибок
Claude Sonnet 4.5 в настоящее время испытывает повышенные ошибки по состоянию на 2026-04-28T13:29:56.000Z. Следите за обновлениями на странице статуса и в мегатреде Reddit.

Клод удваивает лимиты использования вне пиковых часов на две недели.
Anthropic временно удваивает лимиты использования Claude вне пиковых часов для всех тарифных планов. В будние дни вне периода 5–11 утра PT/12–6 вечера GMT доступно 2-кратное использование, а на выходных — 2-кратное использование в течение всего дня.
Реальная общественная реакция против ИИ: насилие, данные опросов и убывающая отдача
Нападение с коктейлем Молотова на генерального директора OpenAI, рост гнева поколения Z до 31% и 80% компаний, не видящих прироста производительности — медовый месяц для ИИ закончился.

Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth
Claude Code v2.1.178 добавляет синтаксис Tool(param:value) для правил разрешений, исправляет просмотр транскриптов саб-агентов, несоответствия токенов OAuth и кэширование аутентификации.