Простой метод самодистилляции улучшает генерацию кода в больших языковых моделях.

Что делает простая самодистилляция
Простая самодистилляция (SSD) — это метод постобработки, при котором вы генерируете решения с помощью большой языковой модели с определёнными настройками температуры и усечения, а затем дообучаете модель на этих примерах с помощью стандартного контролируемого дообучения. Ключевая идея в том, что это работает без необходимости в верификаторе, учительской модели или обучении с подкреплением.
Улучшение производительности
Для Qwen3-30B-Instruct SSD повысил показатель pass@1 на LiveCodeBench v6 с 42,4% до 55,3%. Улучшения были сосредоточены на более сложных задачах, и метод показал обобщаемость для моделей Qwen и Llama масштабов 4B, 8B и 30B, включая как инструктивные, так и мыслительные варианты.
Почему это работает
Исследователи связали улучшения с конфликтом точности и исследования при декодировании в LLM. SSD изменяет распределение токенов контекстно-зависимым образом, подавляя отвлекающие «хвосты» там, где важна точность, сохраняя при этом полезное разнообразие там, где важно исследование. Это решает фундаментальное противоречие между генерацией точного кода и исследованием различных подходов к решению.
Практические последствия
SSD предлагает дополнительное направление постобработки для улучшения генерации кода LLM, которое относительно просто реализовать по сравнению с методами, требующими верификаторов или обучения с подкреплением. Подход работает с существующей инфраструктурой дообучения и не требует дополнительных моделей или сложных систем вознаграждения.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Песочница для агентов: устойчивое выполнение и холодные старты
Запуск цикла агента вне песочницы изолирует учетные данные, позволяет приостанавливать песочницу и упрощает совместное использование несколькими пользователями, но требует решения проблем устойчивого выполнения и задержки холодного старта.
Настройки системы Claude Code v2.1.139: Документация платформы Claude на AWS, безопасность обобщения, инструменты PowerShell
CC 2.1.139 (+2 248 токенов): добавлены справочные документы Claude Platform на AWS с аутентификацией SigV4, безопасное обобщение разговоров с сохранением инструкций, таблица соответствия команд Unix и PowerShell, а также ряд улучшений навыков и промптов.

Разработчик признал себя виновным в схеме мошенничества с потоковой передачей музыки с использованием ИИ на сумму 8 миллионов долларов.
54-летний Майкл Смит признался в использовании тысяч бот-аккаунтов и песен, созданных искусственным интеллектом, для получения 8 миллионов долларов роялти со стриминговых платформ, включая Spotify, Apple Music и YouTube Music, в период с 2017 по 2024 год.

Исследование Anthropic выявило снижение когнитивных способностей при работе с ИИ-ассистентами.
Глобальное исследование Anthropic с участием 80 000 пользователей показало, что академические пользователи сообщают о темпах когнитивной деградации в 2,5 раза выше среднего при использовании ИИ-инструментов, таких как Claude и Cursor. Источник определяет проблему как устранение пользователями «фазы переваривания» работы.