Самообучаемая точная настройка на собственных ошибках повышает качество малых моделей до 80% на HumanEval

Разработчик на r/LocalLLaMA реализовал цикл самообучения, в котором небольшая языковая модель генерирует собственные задачи по программированию, пытается их решить и дообучается на парах, где интерпретатор подтверждает корректность. Ключевая идея из статьи DeepSeek-R1 — что модели могут улучшаться через проверяемые вознаграждения — была применена без размеченных человеком данных.
Метод
Базовую модель (начиная с Qwen 2.5 7B) попросили придумать задачу по программированию и несколько небольших тестов. Затем она решала эту задачу несколько раз. Интерпретатор Python выступал единственным судьей: сохранялись пары (неудачная попытка, рабочая попытка). Дообучение проводилось на этих самостоятельно добытых исправлениях. В обучении не использовался код, написанный человеком.
Результаты
- Qwen 2.5 7B base: 25 → 112 на HumanEval (+87 задач) после исправления ошибки в оценщике, которая урезала вывод функций.
- Qwen 2.5 14B: Добыто 100 пар, обучение заняло 95 минут на H100 ($3,50 за кредиты). Результат в пределах 4 баллов от RLHF-версии той же компании.
- Llama 3.2 3B: 32 пары → 39 → 43 на HumanEval. Подтверждает переносимость между архитектурами.
- Qwen 2.5 Coder 7B: Уже специализирован на коде, но всё равно улучшился: HumanEval 83 → 87, MBPP 122 → 124.
- Qwen 3 4B: HumanEval 79 → 106 (+27), MBPP 135 → 148.
Контрольный эксперимент
Чтобы проверить, не связан ли эффект с обычным обучением, автор создал фальшивые пары со случайным мусорным кодом, который не проходил ни один тест. Обучение на них дало нулевой прирост (25/164, как у базы). Улучшение происходит именно за счёт обучения на самостоятельно созданных ошибках и исправлениях.
Практические детали
Первая попытка провалилась, потому что оценщик останавливался рано, урезая вывод модели вдвое. Исправление оценщика было критичным. Вся настройка работала на 24-гигабайтном MacBook и аккаунте RunPod. Код и скрипты обучения предположительно опубликованы в посте на Reddit.
Для кого это
Разработчиков и исследователей, работающих с небольшими языковыми моделями, которые хотят развить логику программирования без человеческих аннотаций.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Незадокументированная ошибка обнаружена в коде бортового компьютера Apollo 11 с использованием искусственного интеллекта и языка спецификаций.
Исследователи обнаружили ошибку блокировки ресурса в коде управления гироскопом компьютера Apollo Guidance, которая оставалась незамеченной в течение 57 лет, используя ИИ Claude и язык спецификаций Allium для анализа 130 000 строк ассемблерного кода.

Три критических пробела в OpenClaw для производственных ИИ-агентов
Разработчик выявил три недостающие возможности в OpenClaw, которые мешают ИИ-агентам функционировать как настоящие сотрудники: аудируемость, детальный контроль действий и разрешение инструкций.

🚀 OpenClaw 2026.2.6 выпущен – новые модели, улучшенная безопасность и основные обновления!
OpenClaw 2026.2.6 представляет революционные функции, включая новые модели ИИ и улучшенные меры безопасности. Узнайте о крупных обновлениях, формирующих будущее автоматизации.

Claude-Code версии 2.1.79 добавляет удалённое управление, исправляет зависания подпроцессов и улучшает использование памяти.
Claude-Code v2.1.79 представляет команду /remote-control для VSCode, позволяющую переносить сессии на claude.ai/code, исправляет зависание claude -p в подпроцессах и сокращает использование памяти при запуске примерно на 18 МБ. В релиз также добавлен флаг --console для аутентификации в Anthropic Console и улучшена обработка таймаутов API.