Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.
Ad

Что это такое

Distil Labs выпустила полный конвейер, который дообучает небольшую модель Qwen3 с 0,6 миллиардами параметров, чтобы превзойти учительскую модель с 120 миллиардами параметров в задачах структурированного вызова функций. Конвейер извлекает рабочие трассировки, генерирует синтетические обучающие данные и обучает специализированную модель, которая в 200 раз меньше учительской.

Результаты производительности

  • Учительская модель (GPT-OSS-120B): 50,0% эквивалентности вызова инструментов
  • Базовая Qwen3-0.6B (без дообучения): 10,3% эквивалентности вызова инструментов
  • Дообученная Qwen3-0.6B: 79,5% эквивалентности вызова инструментов

Задача — вызов функций IoT умного дома: маршрутизация естественно-языковых команд, таких как «включи свет на кухне» или «сделай мне кофе в 7 утра», к правильной функции с правильными параметрами. Оценка основана на точном структурированном соответствии, а не на приблизительном подсчёте.

Почему побеждает маленькая модель

Учительская модель на 120B — это модель общего назначения, которая никогда не видела эти конкретные схемы функций или шаблоны формулировок пользователей. Она часто выдаёт многословные или слегка неформатные ответы. Ученическая модель на 0,6B — это специалист, обученный исключительно для этой задачи, поэтому она стабильно точно соблюдает требуемый формат вывода.

Ad

Архитектура конвейера

Трёхэтапный конвейер:

  1. Извлечение данных: dlt извлекает рабочие трассировки из баз данных, API, облачных хранилищ или агрегаторов логов и записывает их в Hugging Face в виде чистых наборов данных Parquet
  2. Автоматическая курация: LLM-судья оценивает и фильтрует трассировки, чтобы выбрать высококачественные исходные примеры (ручная аннотация не требуется)
  3. Генерация синтетических данных и обучение: Distil Labs использует трассировки как доменный контекст, генерирует ~10 000 синтетических обучающих примеров с помощью большой учительской модели, проверяет и фильтрует их, а затем дообучает ученическую модель

Ключевое понимание: вместо обучения непосредственно на сырых трассировках, они используются как контекст, чтобы генератор синтетических данных создавал примеры, соответствующие реальной лексике, схемам функций и шаблонам формулировок от реальных пользователей.

Набор данных и практические детали

  • Использован набор данных Amazon MASSIVE (более 16k высказываний, 60 намерений) в качестве замены рабочего трафика
  • Отфильтрован для сценария IoT с 9 функциями умного дома
  • ~75 размеченных исходных примеров оказалось достаточно (автоматическая курация, нулевая ручная аннотация)
  • Обучение завершено менее чем за 12 часов
  • Вывод модели: менее 50 мс локально против 400-700 мс для вызовов облачного API
  • Модель доступна в форматах safetensors и GGUF на Hugging Face

Производственные соображения

Модель показывает 79,5% точного соответствия, что означает, что примерно каждый пятый запрос может потребовать запасного варианта. Для производственного использования потребуется порог уверенности, направляющий прогнозы с низкой уверенностью к более крупной модели.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Инструмент Depct собирает данные во время выполнения, чтобы помочь Claude в отладке проблем в производственной среде.
Инструменты

Инструмент Depct собирает данные во время выполнения, чтобы помочь Claude в отладке проблем в производственной среде.

Depct — это инструмент, который собирает данные инструментирования среды выполнения из приложений Node.js, строит на их основе графы и передаёт их Claude через AWS Bedrock, чтобы помочь в отладке периодических сбоев в продакшене. Он также генерирует архитектурные диаграммы и карты зависимостей на основе поведения в среде выполнения.

OpenClawRadar
Conduid: Уровень инфраструктуры доверия для MCP-серверов, созданных с помощью Claude
Инструменты

Conduid: Уровень инфраструктуры доверия для MCP-серверов, созданных с помощью Claude

Conduid индексирует более 25 000 MCP-серверов на GitHub, npm, PyPI и в основных каталогах, оценивая каждый от 0 до 100 на основе активности на GitHub, уровня безопасности, качества документации и признаков поддержки. Весь код был написан с помощью Claude одним основателем.

OpenClawRadar
mcp-optimizer сокращает потери токенов от простаивающих MCP-серверов в Claude Code
Инструменты

mcp-optimizer сокращает потери токенов от простаивающих MCP-серверов в Claude Code

mcp-optimizer — это плагин, который решает проблему напрасной траты токенов от MCP-серверов в Claude Code, анализируя использование инструментов и генерируя оптимизированные конфигурации. Он включает четыре утилиты: mcp-doctor для проверки состояния серверов, mcp-audit для анализа использования, mcp-optimize для создания локальных конфигураций проекта и mcp-to-skills для преобразования инструментов в Skills по запросу.

OpenClawRadar
Visdiff: Визуальная петля обратной связи для генерации фронтенд-кода Claude
Инструменты

Visdiff: Визуальная петля обратной связи для генерации фронтенд-кода Claude

Visdiff решает проблему визуальной точности в генерации фронтенд-кода Claude, сравнивая отрендеренный результат пиксель за пикселем с дизайнами Figma и передавая различия обратно в цикл до полного совпадения.

OpenClawRadar