Когда RLVR помогает небольшим доработанным моделям: анализ на 12 наборах данных

✍️ OpenClawRadar📅 Опубликовано: 27 февраля 2026 г.🔗 Source
Когда RLVR помогает небольшим доработанным моделям: анализ на 12 наборах данных
Ad

Недавний эксперимент проверил, даёт ли добавление этапа обучения с подкреплением (RLVR) поверх контролируемого дообучения (SFT) для небольших языковых моделей (1,7 млрд параметров) измеримые преимущества. Команда провела контролируемый эксперимент на 12 наборах данных, чтобы точно определить, когда этот подход помогает, а когда нет.

Ключевые выводы

Результаты чётко разделились по типам задач:

  • Задачи генерации текста (вопросно-ответные, документация, обезличивание PII): среднее улучшение на +2,0 процентных пункта. Каждый отдельный набор данных в этой категории показал улучшение.
  • Структурированные задачи (классификация, вызов функций): среднее ухудшение на -0,7 процентных пункта. Два набора данных в этой категории фактически регрессировали.
Ad

Почему возникает эта закономерность

Исследователи объясняют, что как только дообученная модель уже правильно выдаёт большинство структурированных результатов, GRPO (Group Relative Policy Optimization) даёт почти нулевые градиенты. По сути, для этапа обучения с подкреплением не остаётся обучающего сигнала.

Для генеративных задач пространство возможных выходов достаточно велико, чтобы обучение с подкреплением продолжало находить улучшения, которые пропускает SFT — особенно когда поощряется семантическая правильность, а не точное совпадение строк.

Практическое правило для принятия решений

Исследование даёт простую рекомендацию для разработчиков:

  • Классификация или строгий вызов функций → Используйте только SFT
  • Вопросно-ответные задачи, документация, задачи извлечения → Добавляйте RLVR поверх SFT

Методология, все 12 протестированных наборов данных и исходные числа доступны в полном анализе.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Claude Code v2.1.160: Подсказки безопасности для конфигурации оболочки, защита файлов acceptEdits и десятки исправлений ошибок
Новости

Claude Code v2.1.160: Подсказки безопасности для конфигурации оболочки, защита файлов acceptEdits и десятки исправлений ошибок

Anthropic выпустил Claude Code v2.1.160 с запросами подтверждения перед записью в startup-файлы оболочки и конфигурации инструментов сборки в режиме acceptEdits, улучшенной поддержкой буфера обмена Windows и исправлением потери истории сессий.

OpenClawRadar
Lovable предоставляет 24-часовой бесплатный доступ с $350 кредитов для партнеров в честь Международного женского дня.
Новости

Lovable предоставляет 24-часовой бесплатный доступ с $350 кредитов для партнеров в честь Международного женского дня.

Lovable предлагает бесплатный доступ к платформе на 24 часа, плюс $100 в токенах Claude API от Anthropic и $250 в кредитах на комиссии Stripe. Предложение действует до 9 марта, 00:59.

OpenClawRadar
OpenAI выпустила GPT-5.3-Codex-Spark в рамках исследовательского превью.
Новости

OpenAI выпустила GPT-5.3-Codex-Spark в рамках исследовательского превью.

OpenAI представила GPT-5.3-Codex-Spark в режиме предварительного исследования, обещая более быстрые возможности разработки.

OpenClawRadar
Верховный суд отказывается пересматривать дело, искусство, созданное ИИ, остаётся неохраняемым авторским правом.
Новости

Верховный суд отказывается пересматривать дело, искусство, созданное ИИ, остаётся неохраняемым авторским правом.

Верховный суд США отказался рассматривать дело о возможности копирайтинга произведений искусства, созданных искусственным интеллектом, оставив в силе решения нижестоящих судов, которые требуют «авторства человека» для защиты авторским правом. Это следует за отказом Бюро по авторским правам в 2022 году удовлетворить просьбу Стивена Тейлора зарегистрировать авторское право на изображение, созданное его алгоритмом.

OpenClawRadar