Бенчмарки показывают, что дистиллированные модели соответствуют передовым LLM в структурированных задачах при 10-кратном снижении затрат.

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source
Бенчмарки показывают, что дистиллированные модели соответствуют передовым LLM в структурированных задачах при 10-кратном снижении затрат.
Ad

Результаты бенчмарков: Дистиллированные vs. Передовые модели

Исследователи провели всестороннее сравнение небольших дистиллированных моделей с передовыми LLM на 9 наборах данных, охватывающих задачи классификации, вызова функций, вопросно-ответных систем и QA с открытой книгой. Все дистиллированные модели относятся к семейству Qwen3 (от 0,6B до 8B) и обучены всего на 50 примерах с использованием моделей-учителей с открытыми весами без привлечения выходных данных API передовых моделей для обучения.

Ключевые результаты производительности

  • Дистиллированные модели соответствуют или превосходят лучшую передовую модель среднего уровня (<$1/MTok входных данных) на 6/9 задачах, эффективно сравниваясь на 7-й
  • Text2SQL: Qwen3-4B дистиллированная достигает 98,0% против Claude Haiku 98,7%, GPT-5 nano 96,0% при $3/млн запросов против $378 и $24 соответственно
  • Умный дом (вызов функций): Qwen3-0.6B набирает 98,7% против 92,0% у Gemini Flash
  • HotpotQA: Дистиллированные модели набирают 92,0% против 98,0% у Haiku - открытое рассуждение с мировыми знаниями остаётся территорией передовых моделей
  • Задачи классификации (Banking77, E-commerce, TREC): Дистиллированные модели находятся в пределах 0-1,5 процентных пунктов от лучшего передового варианта

Производительность вывода

Модели обслуживались через vLLM на одном H100 со следующей производительностью модели Text2SQL 4B:

  • 222 RPS устойчивых
  • p50: 390 мс, p95: 640 мс, p99: 870 мс
  • 7,6 ГБ VRAM (BF16, без квантования)
  • FP8 дал +15% пропускной способности, -44% памяти, без потери точности в кратких экспериментах
Ad

Методология

  • Одинаковые тестовые наборы, одинаковые промпты, одинаковые критерии оценки для всех моделей
  • Передовые модели запускались 3 раза на набор данных (указаны среднее ± стандартное отклонение), дистиллированные при temp=0
  • Оценка: точное соответствие для классификации, tool_call_equivalence (сравнение JSON с нормализацией параметров по умолчанию) для вызова функций, Claude Sonnet 4.6 как LLM-судья для генерации
  • Стоимость: передовые = измеренное использование токенов API × опубликованные цены (февраль 2026). Дистиллированные = H100 по $2,40/час ÷ измеренная устойчивая RPS

Практические рекомендации

  • Дистилляция: структурированные задачи, чётко определённые схемы, высокий объём, требования к суверенитету данных
  • API передовых моделей: широкие мировые знания, свободная генерация, низкий объём
  • Лучшая настройка: маршрутизация между обоими

Доступные ресурсы

Весь код, модели, данные и скрипты оценки являются открытыми по адресу https://github.com/distil-labs/inference-efficiency-benchmarks/

Полный пост в блоге с графиками и разбивкой по наборам данных: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Выпуск Claude-Code версии 2.1.105: Улучшения Worktree, Мониторы плагинов и исправления интерфейса
Новости

Выпуск Claude-Code версии 2.1.105: Улучшения Worktree, Мониторы плагинов и исправления интерфейса

Claude-Code v2.1.105 добавляет параметр path в инструмент EnterWorktree для переключения на существующие рабочие деревья, вводит поддержку фоновых мониторов для плагинов через ключ манифеста monitors и исправляет более 30 проблем, включая ошибки отображения интерфейса, обработку MCP-серверов и совместимость с терминалом.

OpenClawRadar
Сопровождающий ядра Linux сообщает о внезапном улучшении качества отчётов об ошибках, созданных искусственным интеллектом.
Новости

Сопровождающий ядра Linux сообщает о внезапном улучшении качества отчётов об ошибках, созданных искусственным интеллектом.

Грег Кроа-Хартман заявляет, что AI-сгенерированные отчёты об ошибках для ядра Linux перешли от 'AI-помоев' к легитимным отчётам примерно месяц назад, причём команды безопасности с открытым исходным кодом в различных проектах наблюдают аналогичный сдвиг. Команда ядра справляется с увеличением нагрузки с помощью инструментов вроде Sashiko для автоматизации проверок.

OpenClawRadar
Исследователи из Кембриджа разработали мемристор на основе оксида гафния для создания энергоэффективных чипов искусственного интеллекта.
Новости

Исследователи из Кембриджа разработали мемристор на основе оксида гафния для создания энергоэффективных чипов искусственного интеллекта.

Исследователи Кембриджского университета создали мемристор на основе оксида гафния, который переключает токи в миллион раз ниже, чем обычные оксидные устройства, потенциально снижая энергопотребление аппаратного обеспечения ИИ до 70%.

OpenClawRadar
Брэм Коэн критикует «виб-кодинг» и практики разработки с использованием ИИ.
Новости

Брэм Коэн критикует «виб-кодинг» и практики разработки с использованием ИИ.

Брэм Коэн утверждает, что «виб-кодинг» — подход, при котором разработчики избегают просмотра кода, используя ИИ-ассистентов, — приводит к низкому качеству программного обеспечения, приводя в пример утечку исходного кода Claude как иллюстрацию проблем чрезмерного «догфудинга».

OpenClawRadar