Простой метод самодистилляции улучшает генерацию кода в больших языковых моделях.

Что делает простая самодистилляция
Простая самодистилляция (SSD) — это метод постобработки, при котором вы генерируете решения с помощью большой языковой модели с определёнными настройками температуры и усечения, а затем дообучаете модель на этих примерах с помощью стандартного контролируемого дообучения. Ключевая идея в том, что это работает без необходимости в верификаторе, учительской модели или обучении с подкреплением.
Улучшение производительности
Для Qwen3-30B-Instruct SSD повысил показатель pass@1 на LiveCodeBench v6 с 42,4% до 55,3%. Улучшения были сосредоточены на более сложных задачах, и метод показал обобщаемость для моделей Qwen и Llama масштабов 4B, 8B и 30B, включая как инструктивные, так и мыслительные варианты.
Почему это работает
Исследователи связали улучшения с конфликтом точности и исследования при декодировании в LLM. SSD изменяет распределение токенов контекстно-зависимым образом, подавляя отвлекающие «хвосты» там, где важна точность, сохраняя при этом полезное разнообразие там, где важно исследование. Это решает фундаментальное противоречие между генерацией точного кода и исследованием различных подходов к решению.
Практические последствия
SSD предлагает дополнительное направление постобработки для улучшения генерации кода LLM, которое относительно просто реализовать по сравнению с методами, требующими верификаторов или обучения с подкреплением. Подход работает с существующей инфраструктурой дообучения и не требует дополнительных моделей или сложных систем вознаграждения.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Убийственные функции OpenClaw и риски (с решениями)
Изучите выдающиеся особенности OpenClaw, связанные с потенциальными рисками и инновационными решениями для их смягчения.

Локальный Qwen 3.6 против передовых моделей на задаче программирования: одиночный HTML-файл для анимации на Canvas
Пользователь Reddit сравнил локальные квантифицированные версии Qwen 3.6 с ведущими моделями (Claude, Gemini, GPT, Kimi) в задаче создания плотного однофайлового HTML-документа с анимацией вождения на canvas. Локальная модель Qwen 3.6-27B Q4_K_M показала более естественное движение и наслоение, чем некоторые ведущие модели.

Пограничный доступ к ИИ ужесточается: Anthropic Mythos и структурный сдвиг к выборочным развертываниям
Модель кибербезопасности Mythos от Anthropic и инициатива Daybreak от OpenAI знаменуют новую эру, в которой экономические и охранные ограничения оставляют передовой ИИ только для избранных американских компаний, движимые рисками злоупотребления, угрозами дистилляции и формирующимся государственным контролем.

Песочница для агентов: устойчивое выполнение и холодные старты
Запуск цикла агента вне песочницы изолирует учетные данные, позволяет приостанавливать песочницу и упрощает совместное использование несколькими пользователями, но требует решения проблем устойчивого выполнения и задержки холодного старта.