Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.

Что это такое
Distil Labs выпустила полный конвейер, который дообучает небольшую модель Qwen3 с 0,6 миллиардами параметров, чтобы превзойти учительскую модель с 120 миллиардами параметров в задачах структурированного вызова функций. Конвейер извлекает рабочие трассировки, генерирует синтетические обучающие данные и обучает специализированную модель, которая в 200 раз меньше учительской.
Результаты производительности
- Учительская модель (GPT-OSS-120B): 50,0% эквивалентности вызова инструментов
- Базовая Qwen3-0.6B (без дообучения): 10,3% эквивалентности вызова инструментов
- Дообученная Qwen3-0.6B: 79,5% эквивалентности вызова инструментов
Задача — вызов функций IoT умного дома: маршрутизация естественно-языковых команд, таких как «включи свет на кухне» или «сделай мне кофе в 7 утра», к правильной функции с правильными параметрами. Оценка основана на точном структурированном соответствии, а не на приблизительном подсчёте.
Почему побеждает маленькая модель
Учительская модель на 120B — это модель общего назначения, которая никогда не видела эти конкретные схемы функций или шаблоны формулировок пользователей. Она часто выдаёт многословные или слегка неформатные ответы. Ученическая модель на 0,6B — это специалист, обученный исключительно для этой задачи, поэтому она стабильно точно соблюдает требуемый формат вывода.
Архитектура конвейера
Трёхэтапный конвейер:
- Извлечение данных: dlt извлекает рабочие трассировки из баз данных, API, облачных хранилищ или агрегаторов логов и записывает их в Hugging Face в виде чистых наборов данных Parquet
- Автоматическая курация: LLM-судья оценивает и фильтрует трассировки, чтобы выбрать высококачественные исходные примеры (ручная аннотация не требуется)
- Генерация синтетических данных и обучение: Distil Labs использует трассировки как доменный контекст, генерирует ~10 000 синтетических обучающих примеров с помощью большой учительской модели, проверяет и фильтрует их, а затем дообучает ученическую модель
Ключевое понимание: вместо обучения непосредственно на сырых трассировках, они используются как контекст, чтобы генератор синтетических данных создавал примеры, соответствующие реальной лексике, схемам функций и шаблонам формулировок от реальных пользователей.
Набор данных и практические детали
- Использован набор данных Amazon MASSIVE (более 16k высказываний, 60 намерений) в качестве замены рабочего трафика
- Отфильтрован для сценария IoT с 9 функциями умного дома
- ~75 размеченных исходных примеров оказалось достаточно (автоматическая курация, нулевая ручная аннотация)
- Обучение завершено менее чем за 12 часов
- Вывод модели: менее 50 мс локально против 400-700 мс для вызовов облачного API
- Модель доступна в форматах safetensors и GGUF на Hugging Face
Производственные соображения
Модель показывает 79,5% точного соответствия, что означает, что примерно каждый пятый запрос может потребовать запасного варианта. Для производственного использования потребуется порог уверенности, направляющий прогнозы с низкой уверенностью к более крупной модели.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Инструмент Depct собирает данные во время выполнения, чтобы помочь Claude в отладке проблем в производственной среде.
Depct — это инструмент, который собирает данные инструментирования среды выполнения из приложений Node.js, строит на их основе графы и передаёт их Claude через AWS Bedrock, чтобы помочь в отладке периодических сбоев в продакшене. Он также генерирует архитектурные диаграммы и карты зависимостей на основе поведения в среде выполнения.

Conduid: Уровень инфраструктуры доверия для MCP-серверов, созданных с помощью Claude
Conduid индексирует более 25 000 MCP-серверов на GitHub, npm, PyPI и в основных каталогах, оценивая каждый от 0 до 100 на основе активности на GitHub, уровня безопасности, качества документации и признаков поддержки. Весь код был написан с помощью Claude одним основателем.

mcp-optimizer сокращает потери токенов от простаивающих MCP-серверов в Claude Code
mcp-optimizer — это плагин, который решает проблему напрасной траты токенов от MCP-серверов в Claude Code, анализируя использование инструментов и генерируя оптимизированные конфигурации. Он включает четыре утилиты: mcp-doctor для проверки состояния серверов, mcp-audit для анализа использования, mcp-optimize для создания локальных конфигураций проекта и mcp-to-skills для преобразования инструментов в Skills по запросу.

Visdiff: Визуальная петля обратной связи для генерации фронтенд-кода Claude
Visdiff решает проблему визуальной точности в генерации фронтенд-кода Claude, сравнивая отрендеренный результат пиксель за пикселем с дизайнами Figma и передавая различия обратно в цикл до полного совпадения.