Тонко настроенные модели Qwen3 Small превосходят передовые LLM в определенных задачах при более низкой стоимости.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source

Систематическое сравнение небольших дистиллированных моделей Qwen3 с передовыми API-моделями показывает, что дообученные небольшие языковые модели могут превосходить более крупные и дорогие модели в конкретных структурированных задачах.

Результаты тестирования

Исследование сравнило модели Qwen3 (от 0,6 до 8 млрд параметров) с передовыми API, включая GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 и Grok 4.1 Fast/Grok 4 на 9 наборах данных. Все дистиллированные модели обучались только с использованием открытых учителей, всего на 50 примерах. Вывод выполнялся на vLLM на одном H100.

Ключевые результаты производительности

Вызов функций для умного дома: Qwen3-0.6B достиг точности 98,7% против 92,0% у Gemini Flash
Text2SQL: Дистиллированная Qwen3-4B получила 98,0% против 98,7% у Claude Haiku и 96,0% у GPT-5 nano
Сравнение стоимости: Стоимость Text2SQL за миллион запросов: Qwen3-4B ~$3 против $378 у Claude Haiku и $24 у GPT-5 nano
Задачи классификации: Дистиллированные модели показали результат в пределах 0–1,5 процентных пунктов от лучшего передового варианта на наборах данных Banking77, E-commerce и TREC
Преимущество передовых моделей: HotpotQA (открытое рассуждение + знания о мире) — 92,0% против 98,0% у Haiku

Метрики производительности

Для Text2SQL с Qwen3-4B на H100:

Поддерживаемая скорость: 222 RPS
p50: 390 мс | p95: 640 мс | p99: 870 мс
7,6 ГБ видеопамяти (BF16, без квантования)
FP8 дал +15% пропускной способности, −44% видеопамяти, без заметной потери точности в кратких экспериментах

Методология

Одинаковые тестовые наборы, промпты и критерии оценки для всех моделей
Передовые модели запускались 3 раза на каждом наборе данных (отчёт о среднем ± стандартное отклонение), дистиллированные — при temperature=0
Оценка: точное совпадение для классификации, tool_call_equivalence (сравнение JSON с нормализацией параметров по умолчанию) для вызова функций, Claude Sonnet 4.6 как LLM-судья для задач генерации
Расчёт стоимости: передовые модели = измеренное использование токенов × опубликованные цены (февраль 2026); дистиллированные = H100 по $2,40/час ÷ поддерживаемая RPS

Практические рекомендации

Используйте дистиллированные модели, когда: У вас структурированные задачи, чёткие схемы, высокий объём или требования к суверенитету данных
Используйте передовые API, когда: Нужны широкие знания о мире, свободная генерация или объём настолько низок, что стоимость не имеет значения
Гибридный подход: Маршрутизация между двумя вариантами в зависимости от требований задачи

Доступность

Весь код, модели, данные и скрипты оценки являются открытыми на GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Полный анализ с графиками доступен в блоге: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Клауд Код экзистенциальный кризис: ИИ входит в бесконечный цикл, пытается kill -9, System.exit(0) и :wq, чтобы завершить собственный ответ

Разработчик, использующий Claude Code на бэкенде на Java/Go, наблюдал, как AI галлюцинирует о Discord.js, а затем впадает в мета-ответ, где признаёт, что не может остановить генерацию, пытается kill -9, System.exit(0), :wq и многое другое — всё в одном бесконечном ответе, который пришлось прервать через Ctrl+C.

30 апр. 2026 г., 00:17 UTC

OpenClawRadar

Новости

Apple предлагает бесплатный Private Cloud Compute независимым разработчикам с менее чем 2 миллионами загрузок

Apple объявила на WWDC 2026, что разработчики с менее чем 2 миллионами первых загрузок в App Store могут использовать Foundation Models в Private Cloud Compute без оплаты облачного API. Платформа также получила поддержку ввода изображений и серверных моделей.

9 июн. 2026 г., 12:15 UTC

OpenClawRadar

🦀

Новости

Google DeepMind AI Pointer: Переосмысление мыши для взаимодействия с Gemini

Google DeepMind представляет AI-управляемый указатель мыши, который использует Gemini для понимания контекста, позволяя выполнять команды, такие как указание на изображение и произнесение «Покажи маршруты», интегрированный в Chrome и Googlebook.

12 мая 2026 г., 22:15 UTC

OpenClawRadar

Новости

Harmonic-9B: Двухэтапная дообученная модель Qwen3.5-9B для ИИ-агентов

Разработчик DJLougen выпустил Harmonic-9B — тонкую настройку Qwen3.5-9B, оптимизированную для использования агентами с двухэтапным подходом к обучению. Этап 1 (интенсивное рассуждение) завершён, а Этап 2 (лёгкий вызов инструментов) всё ещё обучается. Квантованные версии GGUF уже доступны.

15 апр. 2026 г., 07:45 UTC

OpenClawRadar