Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Дообученная модель Qwen3-0.6B превосходит учителя размером 120B в структурированном вызове функций.
Ad

Что это такое

Distil Labs выпустила полный конвейер, который дообучает небольшую модель Qwen3 с 0,6 миллиардами параметров, чтобы превзойти учительскую модель с 120 миллиардами параметров в задачах структурированного вызова функций. Конвейер извлекает рабочие трассировки, генерирует синтетические обучающие данные и обучает специализированную модель, которая в 200 раз меньше учительской.

Результаты производительности

  • Учительская модель (GPT-OSS-120B): 50,0% эквивалентности вызова инструментов
  • Базовая Qwen3-0.6B (без дообучения): 10,3% эквивалентности вызова инструментов
  • Дообученная Qwen3-0.6B: 79,5% эквивалентности вызова инструментов

Задача — вызов функций IoT умного дома: маршрутизация естественно-языковых команд, таких как «включи свет на кухне» или «сделай мне кофе в 7 утра», к правильной функции с правильными параметрами. Оценка основана на точном структурированном соответствии, а не на приблизительном подсчёте.

Почему побеждает маленькая модель

Учительская модель на 120B — это модель общего назначения, которая никогда не видела эти конкретные схемы функций или шаблоны формулировок пользователей. Она часто выдаёт многословные или слегка неформатные ответы. Ученическая модель на 0,6B — это специалист, обученный исключительно для этой задачи, поэтому она стабильно точно соблюдает требуемый формат вывода.

Ad

Архитектура конвейера

Трёхэтапный конвейер:

  1. Извлечение данных: dlt извлекает рабочие трассировки из баз данных, API, облачных хранилищ или агрегаторов логов и записывает их в Hugging Face в виде чистых наборов данных Parquet
  2. Автоматическая курация: LLM-судья оценивает и фильтрует трассировки, чтобы выбрать высококачественные исходные примеры (ручная аннотация не требуется)
  3. Генерация синтетических данных и обучение: Distil Labs использует трассировки как доменный контекст, генерирует ~10 000 синтетических обучающих примеров с помощью большой учительской модели, проверяет и фильтрует их, а затем дообучает ученическую модель

Ключевое понимание: вместо обучения непосредственно на сырых трассировках, они используются как контекст, чтобы генератор синтетических данных создавал примеры, соответствующие реальной лексике, схемам функций и шаблонам формулировок от реальных пользователей.

Набор данных и практические детали

  • Использован набор данных Amazon MASSIVE (более 16k высказываний, 60 намерений) в качестве замены рабочего трафика
  • Отфильтрован для сценария IoT с 9 функциями умного дома
  • ~75 размеченных исходных примеров оказалось достаточно (автоматическая курация, нулевая ручная аннотация)
  • Обучение завершено менее чем за 12 часов
  • Вывод модели: менее 50 мс локально против 400-700 мс для вызовов облачного API
  • Модель доступна в форматах safetensors и GGUF на Hugging Face

Производственные соображения

Модель показывает 79,5% точного соответствия, что означает, что примерно каждый пятый запрос может потребовать запасного варианта. Для производственного использования потребуется порог уверенности, направляющий прогнозы с низкой уверенностью к более крупной модели.

📖 Прочитать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Сервер MCP для контекста кодовой базы с упаковкой по глубине
Инструменты

Сервер MCP для контекста кодовой базы с упаковкой по глубине

Новый MCP-сервер упаковывает контекст кодовой базы на 5 уровнях глубины в рамках лимита токенов, решая проблему, когда ИИ-агенты для программирования либо загружают слишком мало файлов, либо получают плоскую карту репозитория без фактического содержимого.

OpenClawRadar
SkillsGate: Открытая Платформа для Навыков ИИ-Агентов в Программировании
Инструменты

SkillsGate: Открытая Платформа для Навыков ИИ-Агентов в Программировании

SkillsGate — это открытая платформа-маркетплейс, которая индексирует более 45 000 навыков для ИИ-агентов программирования, таких как Claude Code, Cursor и Windsurf. Она предоставляет семантический поиск с векторными эмбеддингами и установку одной командой через npx.

OpenClawRadar
Apideck CLI: Низкоконтекстная альтернатива MCP для AI-агентов
Инструменты

Apideck CLI: Низкоконтекстная альтернатива MCP для AI-агентов

Apideck CLI — это интерфейс для ИИ-агентов, который использует около 80 токенов для промпта агента вместо десятков тысяч для схем инструментов, решая проблему потребления контекстного окна в MCP. Бенчмарки показывают, что MCP может стоить в 4–32 раза больше токенов, чем CLI, для идентичных операций.

OpenClawRadar
Coding-Flashcards: 800+ карточек Anki для Rust, SQLite, Godot и Wolfram Language
Инструменты

Coding-Flashcards: 800+ карточек Anki для Rust, SQLite, Godot и Wolfram Language

Более 800 карточек в формате Markdown, охватывающих Rust, SQLite, Godot и Wolfram Language с нуля, включая скрипты для конвертации в колоды Anki или PDF.

OpenClawRadar