Самообучаемая настройка: малые модели достигают 80% HumanEval

Разработчик на r/LocalLLaMA реализовал цикл самообучения, в котором небольшая языковая модель генерирует собственные задачи по программированию, пытается их решить и дообучается на парах, где интерпретатор подтверждает корректность. Ключевая идея из статьи DeepSeek-R1 — что модели могут улучшаться через проверяемые вознаграждения — была применена без размеченных человеком данных.

Метод

Базовую модель (начиная с Qwen 2.5 7B) попросили придумать задачу по программированию и несколько небольших тестов. Затем она решала эту задачу несколько раз. Интерпретатор Python выступал единственным судьей: сохранялись пары (неудачная попытка, рабочая попытка). Дообучение проводилось на этих самостоятельно добытых исправлениях. В обучении не использовался код, написанный человеком.

Результаты

Qwen 2.5 7B base: 25 → 112 на HumanEval (+87 задач) после исправления ошибки в оценщике, которая урезала вывод функций.
Qwen 2.5 14B: Добыто 100 пар, обучение заняло 95 минут на H100 ($3,50 за кредиты). Результат в пределах 4 баллов от RLHF-версии той же компании.
Llama 3.2 3B: 32 пары → 39 → 43 на HumanEval. Подтверждает переносимость между архитектурами.
Qwen 2.5 Coder 7B: Уже специализирован на коде, но всё равно улучшился: HumanEval 83 → 87, MBPP 122 → 124.
Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.

Контрольный эксперимент

Чтобы проверить, не связан ли эффект с обычным обучением, автор создал фальшивые пары со случайным мусорным кодом, который не проходил ни один тест. Обучение на них дало нулевой прирост (25/164, как у базы). Улучшение происходит именно за счёт обучения на самостоятельно созданных ошибках и исправлениях.

Практические детали

Первая попытка провалилась, потому что оценщик останавливался рано, урезая вывод модели вдвое. Исправление оценщика было критичным. Вся настройка работала на 24-гигабайтном MacBook и аккаунте RunPod. Код и скрипты обучения предположительно опубликованы в посте на Reddit.

Для кого это

Разработчиков и исследователей, работающих с небольшими языковыми моделями, которые хотят развить логику программирования без человеческих аннотаций.

📖 Читать полный источник: r/LocalLLaMA

Самообучаемая точная настройка на собственных ошибках повышает качество малых моделей до 80% на HumanEval

Метод

Результаты

Контрольный эксперимент

Практические детали

Для кого это

👀 Смотрите также

Соучредитель Super Micro среди троих обвиняемых в деле об экспорте технологий ИИ.

Claude Memory功能导致版本回退：用户丢失一天的工作成果

Бенчмарк усилий рассуждения Opus 4.7: Средний превосходит Высокий и Максимум в реальных задачах

Стратегия Apple в области ИИ и коммодификация интеллекта