RLVR поверх SFT: +2 п.п. на тексте, -0.7 на задачах

Недавний эксперимент проверил, даёт ли добавление этапа обучения с подкреплением (RLVR) поверх контролируемого дообучения (SFT) для небольших языковых моделей (1,7 млрд параметров) измеримые преимущества. Команда провела контролируемый эксперимент на 12 наборах данных, чтобы точно определить, когда этот подход помогает, а когда нет.

Ключевые выводы

Результаты чётко разделились по типам задач:

Задачи генерации текста (вопросно-ответные, документация, обезличивание PII): среднее улучшение на +2,0 процентных пункта. Каждый отдельный набор данных в этой категории показал улучшение.
Структурированные задачи (классификация, вызов функций): среднее ухудшение на -0,7 процентных пункта. Два набора данных в этой категории фактически регрессировали.

Почему возникает эта закономерность

Исследователи объясняют, что как только дообученная модель уже правильно выдаёт большинство структурированных результатов, GRPO (Group Relative Policy Optimization) даёт почти нулевые градиенты. По сути, для этапа обучения с подкреплением не остаётся обучающего сигнала.

Для генеративных задач пространство возможных выходов достаточно велико, чтобы обучение с подкреплением продолжало находить улучшения, которые пропускает SFT — особенно когда поощряется семантическая правильность, а не точное совпадение строк.

Практическое правило для принятия решений

Исследование даёт простую рекомендацию для разработчиков:

Классификация или строгий вызов функций → Используйте только SFT
Вопросно-ответные задачи, документация, задачи извлечения → Добавляйте RLVR поверх SFT

Методология, все 12 протестированных наборов данных и исходные числа доступны в полном анализе.

📖 Прочитать полный источник: r/LocalLLaMA

Когда RLVR помогает небольшим доработанным моделям: анализ на 12 наборах данных

Ключевые выводы

Почему возникает эта закономерность

Практическое правило для принятия решений

👀 Смотрите также

Оценка навыков Claude и регрессионное тестирование с помощью Snowflake Cortex Agent

Пятиместный минимум Claude создает пробел в конфиденциальности для индивидуальных практиков

Anthropic запускает удалённое управление для кода Claude

Команда MeshCore разделяется: товарный знак зарегистрирован втайне, спор о коде, сгенерированном ИИ