Granite 4.1: Плотная модель IBM на 8B параметров сравнивается с 32B MoE в бенчмарках

✍️ OpenClawRadar📅 Опубликовано: 30 апреля 2026 г.🔗 Source
Granite 4.1: Плотная модель IBM на 8B параметров сравнивается с 32B MoE в бенчмарках
Ad

IBM выпустила Granite 4.1, семейство языковых моделей с открытым исходным кодом (Apache 2.0) размером 3B, 8B и 30B. Все используют плотный трансформер декодерного типа — никакого MoE, никаких длинных цепочек рассуждений. Модель 8B выделяется: она соответствует или превосходит предыдущую Granite 4.0-H-Small (32B MoE, 9B активных) по нескольким бенчмаркам.

Ключевые результаты бенчмарков

  • ArenaHard (качество реальных запросов): 8B набирает 69,0, 32B MoE — ниже.
  • BFCL V3 (вызов инструментов): 8B набирает 68,3, 32B MoE — 64,7.
  • GSM8K (математические рассуждения): 8B достигает 92,5.
  • AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP: 8B стабильно превосходит более крупную модель.
Ad

Конвейер обучения

Granite 4.1 обучалась на 15 триллионах токенов в пять этапов с изменяющимся составом данных:

  • Этап 1: 59% CommonCrawl, 20% код, 7% математика.
  • Этап 2: математика возрастает до 35%, код до 30%.
  • Этапы 3-4: смесь цепочек рассуждений, инструктивных данных и высококачественного веб-контента.
  • Этап 5: расширение контекстного окна до 512K токенов (8B и 30B).

Ключевой вывод: качество данных важнее масштабирования параметров. Конвейер фильтрации данных IBM отбрасывает примеры с галлюцинациями или игнорированием инструкций во время тонкой настройки, чтобы избежать обучения на плохих сигналах.

Почему это важно для ИИ-агентов

Плотные модели обеспечивают предсказуемую задержку и стоимость — нет накладных расходов на маршрутизацию. Для разработчиков, использующих ИИ-агенты кодирования, модель 8B Granite 4.1 обеспечивает хорошее использование инструментов и математические рассуждения при малой доле вычислительных затрат по сравнению с моделями MoE.

📖 Читайте полный источник: HN AI Agents

Ad

👀 Смотрите также

Обновление статуса: Claude Sonnet 4.5 испытывает повышенное количество ошибок
Новости

Обновление статуса: Claude Sonnet 4.5 испытывает повышенное количество ошибок

Claude Sonnet 4.5 в настоящее время испытывает повышенные ошибки по состоянию на 2026-04-28T13:29:56.000Z. Следите за обновлениями на странице статуса и в мегатреде Reddit.

OpenClawRadar
Клод удваивает лимиты использования вне пиковых часов на две недели.
Новости

Клод удваивает лимиты использования вне пиковых часов на две недели.

Anthropic временно удваивает лимиты использования Claude вне пиковых часов для всех тарифных планов. В будние дни вне периода 5–11 утра PT/12–6 вечера GMT доступно 2-кратное использование, а на выходных — 2-кратное использование в течение всего дня.

OpenClawRadar
🦀
Новости

Реальная общественная реакция против ИИ: насилие, данные опросов и убывающая отдача

Нападение с коктейлем Молотова на генерального директора OpenAI, рост гнева поколения Z до 31% и 80% компаний, не видящих прироста производительности — медовый месяц для ИИ закончился.

OpenClawRadar
Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth
Новости

Claude Code v2.1.178 добавляет правила разрешений Tool(param:value), исправляет проблемы Subagent и Auth

Claude Code v2.1.178 добавляет синтаксис Tool(param:value) для правил разрешений, исправляет просмотр транскриптов саб-агентов, несоответствия токенов OAuth и кэширование аутентификации.

OpenClawRadar