Бенчмарки показывают, что дистиллированные модели соответствуют передовым LLM в структурированных задачах при 10-кратном снижении затрат.

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source

Результаты бенчмарков: Дистиллированные vs. Передовые модели

Исследователи провели всестороннее сравнение небольших дистиллированных моделей с передовыми LLM на 9 наборах данных, охватывающих задачи классификации, вызова функций, вопросно-ответных систем и QA с открытой книгой. Все дистиллированные модели относятся к семейству Qwen3 (от 0,6B до 8B) и обучены всего на 50 примерах с использованием моделей-учителей с открытыми весами без привлечения выходных данных API передовых моделей для обучения.

Ключевые результаты производительности

Дистиллированные модели соответствуют или превосходят лучшую передовую модель среднего уровня (<$1/MTok входных данных) на 6/9 задачах, эффективно сравниваясь на 7-й
Text2SQL: Qwen3-4B дистиллированная достигает 98,0% против Claude Haiku 98,7%, GPT-5 nano 96,0% при $3/млн запросов против $378 и $24 соответственно
Умный дом (вызов функций): Qwen3-0.6B набирает 98,7% против 92,0% у Gemini Flash
HotpotQA: Дистиллированные модели набирают 92,0% против 98,0% у Haiku - открытое рассуждение с мировыми знаниями остаётся территорией передовых моделей
Задачи классификации (Banking77, E-commerce, TREC): Дистиллированные модели находятся в пределах 0-1,5 процентных пунктов от лучшего передового варианта

Производительность вывода

Модели обслуживались через vLLM на одном H100 со следующей производительностью модели Text2SQL 4B:

222 RPS устойчивых
p50: 390 мс, p95: 640 мс, p99: 870 мс
7,6 ГБ VRAM (BF16, без квантования)
FP8 дал +15% пропускной способности, -44% памяти, без потери точности в кратких экспериментах

Методология

Одинаковые тестовые наборы, одинаковые промпты, одинаковые критерии оценки для всех моделей
Передовые модели запускались 3 раза на набор данных (указаны среднее ± стандартное отклонение), дистиллированные при temp=0
Оценка: точное соответствие для классификации, tool_call_equivalence (сравнение JSON с нормализацией параметров по умолчанию) для вызова функций, Claude Sonnet 4.6 как LLM-судья для генерации
Стоимость: передовые = измеренное использование токенов API × опубликованные цены (февраль 2026). Дистиллированные = H100 по $2,40/час ÷ измеренная устойчивая RPS

Практические рекомендации

Дистилляция: структурированные задачи, чётко определённые схемы, высокий объём, требования к суверенитету данных
API передовых моделей: широкие мировые знания, свободная генерация, низкий объём
Лучшая настройка: маршрутизация между обоими

Доступные ресурсы

Весь код, модели, данные и скрипты оценки являются открытыми по адресу https://github.com/distil-labs/inference-efficiency-benchmarks/

Полный пост в блоге с графиками и разбивкой по наборам данных: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Новости

Выпуск Claude-Code версии 2.1.105: Улучшения Worktree, Мониторы плагинов и исправления интерфейса

Claude-Code v2.1.105 добавляет параметр path в инструмент EnterWorktree для переключения на существующие рабочие деревья, вводит поддержку фоновых мониторов для плагинов через ключ манифеста monitors и исправляет более 30 проблем, включая ошибки отображения интерфейса, обработку MCP-серверов и совместимость с терминалом.

16 апр. 2026 г., 20:45 UTC

OpenClawRadar

Новости

Сопровождающий ядра Linux сообщает о внезапном улучшении качества отчётов об ошибках, созданных искусственным интеллектом.

Грег Кроа-Хартман заявляет, что AI-сгенерированные отчёты об ошибках для ядра Linux перешли от 'AI-помоев' к легитимным отчётам примерно месяц назад, причём команды безопасности с открытым исходным кодом в различных проектах наблюдают аналогичный сдвиг. Команда ядра справляется с увеличением нагрузки с помощью инструментов вроде Sashiko для автоматизации проверок.

28 мар. 2026 г., 07:45 UTC

OpenClawRadar

Новости

Исследователи из Кембриджа разработали мемристор на основе оксида гафния для создания энергоэффективных чипов искусственного интеллекта.

Исследователи Кембриджского университета создали мемристор на основе оксида гафния, который переключает токи в миллион раз ниже, чем обычные оксидные устройства, потенциально снижая энергопотребление аппаратного обеспечения ИИ до 70%.

29 мар. 2026 г., 20:45 UTC

OpenClawRadar

Новости

Брэм Коэн критикует «виб-кодинг» и практики разработки с использованием ИИ.

Брэм Коэн утверждает, что «виб-кодинг» — подход, при котором разработчики избегают просмотра кода, используя ИИ-ассистентов, — приводит к низкому качеству программного обеспечения, приводя в пример утечку исходного кода Claude как иллюстрацию проблем чрезмерного «догфудинга».

16 апр. 2026 г., 21:53 UTC

OpenClawRadar