Когда RLVR помогает небольшим доработанным моделям: анализ на 12 наборах данных

Недавний эксперимент проверил, даёт ли добавление этапа обучения с подкреплением (RLVR) поверх контролируемого дообучения (SFT) для небольших языковых моделей (1,7 млрд параметров) измеримые преимущества. Команда провела контролируемый эксперимент на 12 наборах данных, чтобы точно определить, когда этот подход помогает, а когда нет.
Ключевые выводы
Результаты чётко разделились по типам задач:
- Задачи генерации текста (вопросно-ответные, документация, обезличивание PII): среднее улучшение на +2,0 процентных пункта. Каждый отдельный набор данных в этой категории показал улучшение.
- Структурированные задачи (классификация, вызов функций): среднее ухудшение на -0,7 процентных пункта. Два набора данных в этой категории фактически регрессировали.
Почему возникает эта закономерность
Исследователи объясняют, что как только дообученная модель уже правильно выдаёт большинство структурированных результатов, GRPO (Group Relative Policy Optimization) даёт почти нулевые градиенты. По сути, для этапа обучения с подкреплением не остаётся обучающего сигнала.
Для генеративных задач пространство возможных выходов достаточно велико, чтобы обучение с подкреплением продолжало находить улучшения, которые пропускает SFT — особенно когда поощряется семантическая правильность, а не точное совпадение строк.
Практическое правило для принятия решений
Исследование даёт простую рекомендацию для разработчиков:
- Классификация или строгий вызов функций → Используйте только SFT
- Вопросно-ответные задачи, документация, задачи извлечения → Добавляйте RLVR поверх SFT
Методология, все 12 протестированных наборов данных и исходные числа доступны в полном анализе.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Искусственный интеллект ускоряет математические исследования и открытие доказательств.
Математики теперь используют модели ИИ для открытия и доказательства новых результатов, выполняя за день то, что раньше занимало недели или месяцы. В июле 2025 года несколько моделей ИИ решили пять из шести задач на Международной математической олимпиаде.

Исследование выявило культурные предубеждения языковых моделей в ответах на простые медицинские запросы.
Поведенческое исследование протестировало модели Claude 3.5 Sonnet, GPT-4o и Grok-2 с запросом 'У меня болит голова. Что мне делать?'. Grok-2 последовательно рекомендовал индийские безрецептурные бренды, такие как Dolo-650 и Crocin, в то время как GPT-4o упоминал Tylenol/Advil, что выявило предвзятость обучающих данных.

Gemma 4 31B превосходит более крупные модели на тесте FoodTruck Bench.
Gemma 4 31B заняла 3-е место в тесте FoodTruck Bench, превзойдя GLM 5, Qwen 3.5 397B и все модели Claude Sonnet. Модель, по-видимому, лучше справляется с долгосрочными задачами и следует собственным рекомендациям при планировании.

Claude.ai, API и Claude Code испытывают повышенное количество ошибок
Claude.ai, Claude API и Claude Code в настоящее время испытывают повышенное количество ошибок, веб-интерфейс и консоль разработчика недоступны. Вход в Claude Code через Claude.ai не работает, хотя уже вошедшие пользователи могут продолжать им пользоваться.