Тонко настроенные модели Qwen3 Small превосходят передовые LLM в определенных задачах при более низкой стоимости.

✍️ OpenClawRadar📅 Опубликовано: 9 марта 2026 г.🔗 Source
Тонко настроенные модели Qwen3 Small превосходят передовые LLM в определенных задачах при более низкой стоимости.
Ad

Систематическое сравнение небольших дистиллированных моделей Qwen3 с передовыми API-моделями показывает, что дообученные небольшие языковые модели могут превосходить более крупные и дорогие модели в конкретных структурированных задачах.

Результаты тестирования

Исследование сравнило модели Qwen3 (от 0,6 до 8 млрд параметров) с передовыми API, включая GPT-5 nano/mini/5.2, Gemini 2.5 Flash Lite/Flash, Claude Haiku 4.5/Sonnet 4.6/Opus 4.6 и Grok 4.1 Fast/Grok 4 на 9 наборах данных. Все дистиллированные модели обучались только с использованием открытых учителей, всего на 50 примерах. Вывод выполнялся на vLLM на одном H100.

Ключевые результаты производительности

  • Вызов функций для умного дома: Qwen3-0.6B достиг точности 98,7% против 92,0% у Gemini Flash
  • Text2SQL: Дистиллированная Qwen3-4B получила 98,0% против 98,7% у Claude Haiku и 96,0% у GPT-5 nano
  • Сравнение стоимости: Стоимость Text2SQL за миллион запросов: Qwen3-4B ~$3 против $378 у Claude Haiku и $24 у GPT-5 nano
  • Задачи классификации: Дистиллированные модели показали результат в пределах 0–1,5 процентных пунктов от лучшего передового варианта на наборах данных Banking77, E-commerce и TREC
  • Преимущество передовых моделей: HotpotQA (открытое рассуждение + знания о мире) — 92,0% против 98,0% у Haiku

Метрики производительности

Для Text2SQL с Qwen3-4B на H100:

  • Поддерживаемая скорость: 222 RPS
  • p50: 390 мс | p95: 640 мс | p99: 870 мс
  • 7,6 ГБ видеопамяти (BF16, без квантования)
  • FP8 дал +15% пропускной способности, −44% видеопамяти, без заметной потери точности в кратких экспериментах
Ad

Методология

  • Одинаковые тестовые наборы, промпты и критерии оценки для всех моделей
  • Передовые модели запускались 3 раза на каждом наборе данных (отчёт о среднем ± стандартное отклонение), дистиллированные — при temperature=0
  • Оценка: точное совпадение для классификации, tool_call_equivalence (сравнение JSON с нормализацией параметров по умолчанию) для вызова функций, Claude Sonnet 4.6 как LLM-судья для задач генерации
  • Расчёт стоимости: передовые модели = измеренное использование токенов × опубликованные цены (февраль 2026); дистиллированные = H100 по $2,40/час ÷ поддерживаемая RPS

Практические рекомендации

  • Используйте дистиллированные модели, когда: У вас структурированные задачи, чёткие схемы, высокий объём или требования к суверенитету данных
  • Используйте передовые API, когда: Нужны широкие знания о мире, свободная генерация или объём настолько низок, что стоимость не имеет значения
  • Гибридный подход: Маршрутизация между двумя вариантами в зависимости от требований задачи

Доступность

Весь код, модели, данные и скрипты оценки являются открытыми на GitHub: https://github.com/distil-labs/inference-efficiency-benchmarks/

Полный анализ с графиками доступен в блоге: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Клауд Код экзистенциальный кризис: ИИ входит в бесконечный цикл, пытается kill -9, System.exit(0) и :wq, чтобы завершить собственный ответ
Новости

Клауд Код экзистенциальный кризис: ИИ входит в бесконечный цикл, пытается kill -9, System.exit(0) и :wq, чтобы завершить собственный ответ

Разработчик, использующий Claude Code на бэкенде на Java/Go, наблюдал, как AI галлюцинирует о Discord.js, а затем впадает в мета-ответ, где признаёт, что не может остановить генерацию, пытается kill -9, System.exit(0), :wq и многое другое — всё в одном бесконечном ответе, который пришлось прервать через Ctrl+C.

OpenClawRadar
Apple предлагает бесплатный Private Cloud Compute независимым разработчикам с менее чем 2 миллионами загрузок
Новости

Apple предлагает бесплатный Private Cloud Compute независимым разработчикам с менее чем 2 миллионами загрузок

Apple объявила на WWDC 2026, что разработчики с менее чем 2 миллионами первых загрузок в App Store могут использовать Foundation Models в Private Cloud Compute без оплаты облачного API. Платформа также получила поддержку ввода изображений и серверных моделей.

OpenClawRadar
🦀
Новости

Google DeepMind AI Pointer: Переосмысление мыши для взаимодействия с Gemini

Google DeepMind представляет AI-управляемый указатель мыши, который использует Gemini для понимания контекста, позволяя выполнять команды, такие как указание на изображение и произнесение «Покажи маршруты», интегрированный в Chrome и Googlebook.

OpenClawRadar
Harmonic-9B: Двухэтапная дообученная модель Qwen3.5-9B для ИИ-агентов
Новости

Harmonic-9B: Двухэтапная дообученная модель Qwen3.5-9B для ИИ-агентов

Разработчик DJLougen выпустил Harmonic-9B — тонкую настройку Qwen3.5-9B, оптимизированную для использования агентами с двухэтапным подходом к обучению. Этап 1 (интенсивное рассуждение) завершён, а Этап 2 (лёгкий вызов инструментов) всё ещё обучается. Квантованные версии GGUF уже доступны.

OpenClawRadar