Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.

Что это такое
Distil Labs выпустила полный конвейер, который дообучает небольшую модель Qwen3 с 0,6 миллиардами параметров, чтобы превзойти учительскую модель с 120 миллиардами параметров в задачах структурированного вызова функций. Конвейер извлекает рабочие трассировки, генерирует синтетические обучающие данные и обучает специализированную модель, которая в 200 раз меньше учительской.
Результаты производительности
- Учительская модель (GPT-OSS-120B): 50,0% эквивалентности вызова инструментов
- Базовая Qwen3-0.6B (без дообучения): 10,3% эквивалентности вызова инструментов
- Дообученная Qwen3-0.6B: 79,5% эквивалентности вызова инструментов
Задача — вызов функций IoT умного дома: маршрутизация естественно-языковых команд, таких как «включи свет на кухне» или «сделай мне кофе в 7 утра», к правильной функции с правильными параметрами. Оценка основана на точном структурированном соответствии, а не на приблизительном подсчёте.
Почему побеждает маленькая модель
Учительская модель на 120B — это модель общего назначения, которая никогда не видела эти конкретные схемы функций или шаблоны формулировок пользователей. Она часто выдаёт многословные или слегка неформатные ответы. Ученическая модель на 0,6B — это специалист, обученный исключительно для этой задачи, поэтому она стабильно точно соблюдает требуемый формат вывода.
Архитектура конвейера
Трёхэтапный конвейер:
- Извлечение данных: dlt извлекает рабочие трассировки из баз данных, API, облачных хранилищ или агрегаторов логов и записывает их в Hugging Face в виде чистых наборов данных Parquet
- Автоматическая курация: LLM-судья оценивает и фильтрует трассировки, чтобы выбрать высококачественные исходные примеры (ручная аннотация не требуется)
- Генерация синтетических данных и обучение: Distil Labs использует трассировки как доменный контекст, генерирует ~10 000 синтетических обучающих примеров с помощью большой учительской модели, проверяет и фильтрует их, а затем дообучает ученическую модель
Ключевое понимание: вместо обучения непосредственно на сырых трассировках, они используются как контекст, чтобы генератор синтетических данных создавал примеры, соответствующие реальной лексике, схемам функций и шаблонам формулировок от реальных пользователей.
Набор данных и практические детали
- Использован набор данных Amazon MASSIVE (более 16k высказываний, 60 намерений) в качестве замены рабочего трафика
- Отфильтрован для сценария IoT с 9 функциями умного дома
- ~75 размеченных исходных примеров оказалось достаточно (автоматическая курация, нулевая ручная аннотация)
- Обучение завершено менее чем за 12 часов
- Вывод модели: менее 50 мс локально против 400-700 мс для вызовов облачного API
- Модель доступна в форматах safetensors и GGUF на Hugging Face
Производственные соображения
Модель показывает 79,5% точного соответствия, что означает, что примерно каждый пятый запрос может потребовать запасного варианта. Для производственного использования потребуется порог уверенности, направляющий прогнозы с низкой уверенностью к более крупной модели.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Сервер MCP для контекста кодовой базы с упаковкой по глубине
Новый MCP-сервер упаковывает контекст кодовой базы на 5 уровнях глубины в рамках лимита токенов, решая проблему, когда ИИ-агенты для программирования либо загружают слишком мало файлов, либо получают плоскую карту репозитория без фактического содержимого.

SkillsGate: Открытая Платформа для Навыков ИИ-Агентов в Программировании
SkillsGate — это открытая платформа-маркетплейс, которая индексирует более 45 000 навыков для ИИ-агентов программирования, таких как Claude Code, Cursor и Windsurf. Она предоставляет семантический поиск с векторными эмбеддингами и установку одной командой через npx.

Apideck CLI: Низкоконтекстная альтернатива MCP для AI-агентов
Apideck CLI — это интерфейс для ИИ-агентов, который использует около 80 токенов для промпта агента вместо десятков тысяч для схем инструментов, решая проблему потребления контекстного окна в MCP. Бенчмарки показывают, что MCP может стоить в 4–32 раза больше токенов, чем CLI, для идентичных операций.

Coding-Flashcards: 800+ карточек Anki для Rust, SQLite, Godot и Wolfram Language
Более 800 карточек в формате Markdown, охватывающих Rust, SQLite, Godot и Wolfram Language с нуля, включая скрипты для конвертации в колоды Anki или PDF.