Самодистилляция: +12.9% pass@1 для Qwen3-30B кода

Что делает простая самодистилляция

Простая самодистилляция (SSD) — это метод постобработки, при котором вы генерируете решения с помощью большой языковой модели с определёнными настройками температуры и усечения, а затем дообучаете модель на этих примерах с помощью стандартного контролируемого дообучения. Ключевая идея в том, что это работает без необходимости в верификаторе, учительской модели или обучении с подкреплением.

Улучшение производительности

Для Qwen3-30B-Instruct SSD повысил показатель pass@1 на LiveCodeBench v6 с 42,4% до 55,3%. Улучшения были сосредоточены на более сложных задачах, и метод показал обобщаемость для моделей Qwen и Llama масштабов 4B, 8B и 30B, включая как инструктивные, так и мыслительные варианты.

Почему это работает

Исследователи связали улучшения с конфликтом точности и исследования при декодировании в LLM. SSD изменяет распределение токенов контекстно-зависимым образом, подавляя отвлекающие «хвосты» там, где важна точность, сохраняя при этом полезное разнообразие там, где важно исследование. Это решает фундаментальное противоречие между генерацией точного кода и исследованием различных подходов к решению.

Практические последствия

SSD предлагает дополнительное направление постобработки для улучшения генерации кода LLM, которое относительно просто реализовать по сравнению с методами, требующими верификаторов или обучения с подкреплением. Подход работает с существующей инфраструктурой дообучения и не требует дополнительных моделей или сложных систем вознаграждения.

📖 Read the full source: HN AI Agents

Простой метод самодистилляции улучшает генерацию кода в больших языковых моделях.

Что делает простая самодистилляция

Улучшение производительности

Почему это работает

Практические последствия

👀 Смотрите также

Проверка цен на DeepSeek V4: кэшированные токены в 178 раз дешевле Opus, но признано отставание в возможностях

System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания

Claude Code v2.1.121: MCP alwaysLoad, очистка плагинов, исправления прокрутки терминала и исправления утечек памяти

中国阻止Meta收购AI初创公司Manus