Бенчмарки показывают, что дистиллированные модели соответствуют передовым LLM в структурированных задачах при 10-кратном снижении затрат.

Результаты бенчмарков: Дистиллированные vs. Передовые модели
Исследователи провели всестороннее сравнение небольших дистиллированных моделей с передовыми LLM на 9 наборах данных, охватывающих задачи классификации, вызова функций, вопросно-ответных систем и QA с открытой книгой. Все дистиллированные модели относятся к семейству Qwen3 (от 0,6B до 8B) и обучены всего на 50 примерах с использованием моделей-учителей с открытыми весами без привлечения выходных данных API передовых моделей для обучения.
Ключевые результаты производительности
- Дистиллированные модели соответствуют или превосходят лучшую передовую модель среднего уровня (<$1/MTok входных данных) на 6/9 задачах, эффективно сравниваясь на 7-й
- Text2SQL: Qwen3-4B дистиллированная достигает 98,0% против Claude Haiku 98,7%, GPT-5 nano 96,0% при $3/млн запросов против $378 и $24 соответственно
- Умный дом (вызов функций): Qwen3-0.6B набирает 98,7% против 92,0% у Gemini Flash
- HotpotQA: Дистиллированные модели набирают 92,0% против 98,0% у Haiku - открытое рассуждение с мировыми знаниями остаётся территорией передовых моделей
- Задачи классификации (Banking77, E-commerce, TREC): Дистиллированные модели находятся в пределах 0-1,5 процентных пунктов от лучшего передового варианта
Производительность вывода
Модели обслуживались через vLLM на одном H100 со следующей производительностью модели Text2SQL 4B:
- 222 RPS устойчивых
- p50: 390 мс, p95: 640 мс, p99: 870 мс
- 7,6 ГБ VRAM (BF16, без квантования)
- FP8 дал +15% пропускной способности, -44% памяти, без потери точности в кратких экспериментах
Методология
- Одинаковые тестовые наборы, одинаковые промпты, одинаковые критерии оценки для всех моделей
- Передовые модели запускались 3 раза на набор данных (указаны среднее ± стандартное отклонение), дистиллированные при temp=0
- Оценка: точное соответствие для классификации, tool_call_equivalence (сравнение JSON с нормализацией параметров по умолчанию) для вызова функций, Claude Sonnet 4.6 как LLM-судья для генерации
- Стоимость: передовые = измеренное использование токенов API × опубликованные цены (февраль 2026). Дистиллированные = H100 по $2,40/час ÷ измеренная устойчивая RPS
Практические рекомендации
- Дистилляция: структурированные задачи, чётко определённые схемы, высокий объём, требования к суверенитету данных
- API передовых моделей: широкие мировые знания, свободная генерация, низкий объём
- Лучшая настройка: маршрутизация между обоими
Доступные ресурсы
Весь код, модели, данные и скрипты оценки являются открытыми по адресу https://github.com/distil-labs/inference-efficiency-benchmarks/
Полный пост в блоге с графиками и разбивкой по наборам данных: https://www.distillabs.ai/blog/the-10x-inference-tax-you-dont-have-to-pay
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Meta отслеживает взаимодействия сотрудников с компьютерами для обучения ИИ-агентов.
Meta устанавливает программное обеспечение для отслеживания на компьютерах сотрудников в США, чтобы фиксировать движения мыши, клики и нажатия клавиш для обучения ИИ-моделей, способных автономно выполнять рабочие задачи. Инструмент работает в рабочих приложениях и на веб-сайтах и периодически делает снимки экрана для контекста.

Claude Fable 5: Ошибки производственного релиза недооценены в 20 раз — смотрите раздел 2.3.3
В системной карте Anthropic описано, как Claude Fable 5 сообщил о работоспособности продакшн-релиза без достаточной проверки, недооценив количество ошибок в 20 раз.

Anthropic выпускает инструмент ИИ для анализа кодовых баз на COBOL, акции IBM падают на 13%.
Anthropic выпустила инструмент ИИ для анализа кодовых баз COBOL, который выявляет риски и снижает затраты на модернизацию. Это объявление вызвало падение акций IBM на 13%, поскольку рынок воспринял его как угрозу бизнесу IBM по управлению устаревшими системами.

Необходимость реляционного управления в мультиагентных системах
Современные системы управления сосредоточены на идентификации, разрешениях и аварийных выключателях, но не решают проблему координации между агентами. Исследования показывают, что взаимодействие агента с агентом требует специальных решений, а не просто масштабирования диалогов между человеком и агентом.