Бенчмарки спекулятивного декодирования на RTX 3090 с моделями Qwen для бизнес-применений в сфере HVAC

Аппаратное обеспечение и настройка
Разработчик использовал RTX 3090 24 ГБ, Ryzen 7600X, 32 ГБ ОЗУ и WSL2 Ubuntu. Он перешёл с Ollama на Windows на llama.cpp на WSL Linux со спекулятивным декодированием для внутренней AI-платформы, обрабатывающей поиск клиентов, форматирование предложений, исследование оборудования и разбор неструктурированных заметок о задачах.
Методология тестирования
Они протестировали 16 моделей GGUF из семейств Qwen2.5, Qwen3 и Qwen3.5, все комбинации целевых и черновых моделей, которые помещаются в 24 ГБ видеопамяти, кросс-генерационные пары черновых моделей (черновые модели Qwen2.5 на целевых моделях Qwen3 и наоборот), и отслеживали видеопамять для каждой комбинации, чтобы выявить оффлоадинг на ЦП. Оценка качества проводилась на реальных запросах HVAC-бизнеса для генерации SQL, форматирования предложений, разбора неструктурированных полевых заметок и анализа совместимости оборудования. Они использовали draftbench и llama-throughput-lab для замеров скорости, автоматизируя процесс с помощью Claude Code в течение ночи.
Лучшие результаты по скорости
- Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279,9 ток/сек (+236% ускорение, 13,6 ГБ видеопамяти)
- Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205,4 ток/сек (+50% ускорение, ~6 ГБ видеопамяти)
- Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190,5 ток/сек (+129% ускорение, 12,9 ГБ видеопамяти)
- Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159,1 ток/сек (+115% ускорение, 13,5 ГБ видеопамяти)
- Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137,5 ток/сек (+186% ускорение, ~16 ГБ видеопамяти)
- Qwen3.5-35B-A3B Q4_K_M (базовая, без черновой модели): 133,6 ток/сек (22 ГБ видеопамяти)
- Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91,0 ток/сек (+156% ускорение, ~20 ГБ видеопамяти)
Комбинация Qwen3-8B + черновая модель 1,7B достигла 100% уровня принятия — идеальное совпадение черновой модели, где 1,7B точно предсказывает то, что сгенерировала бы 8B.
Проблема с режимом мышления Qwen3.5
Модели Qwen3.5 по умолчанию входят в режим мышления в llama.cpp, генерируя скрытые токены рассуждений перед ответом. Это вызывало нестабильные результаты бенчмарков: 0 ток/сек чередовались с 700 ток/сек, TTFT прыгал между 1 с и 28 с. Только три метода сработали для его отключения:
--jinja+ исправленный шаблон чата с жёстко заданнымenable_thinking=false✅- Сырой эндпоинт
/completion(полностью обходит шаблон чата) ✅ - Всё остальное (системные промпты, суффикс
/no_think, трюки с температурой) ❌
Если запускаете Qwen3.5 на llama.cpp, вам нужен исправленный шаблон, иначе получите некорректные бенчмарки.
Результаты оценки качества
Они запустили четыре сложных HVAC-специфичных промпта, тестирующих неоднозначные запросы клиентов, сложные предложения, неструктурированные заметки с опечатками и анализ совместимости оборудования. Ключевые выводы:
- Каждая модель провалила математику формулы ценообразования: 8B, 14B, 32B, 35B — ни одна не смогла правильно вычислить $4,811 / (1 - 0,47) = $9,077. LLM не могут надёжно выполнять бизнес-математику — размещайте свои формулы в коде.
- Модель 8B справилась с 3 из 4 сложных промптов — хорошо показала себя на неоднозначных запросах, неструктурированных заметках, ежедневных задачах — но провалила технический анализ оборудования.
- Модель 35B-A3B была единственной с реальными знаниями в области HVAC — правильно подобрала мощность мини-сплита для неутеплённого гаража в Чикаго, знала, что для холодного климата нужно рекомендовать серию Hyper-Heat, правильно указала, что для однозонной системы не нужен распределительный бокс — но пропустила номер модели в неструктурированных заметках и провалила математику.
- Больше ≠ лучше во всём: Qwen3-14B Q4_K_M (159 ток/сек) показала худшие результаты, чем 8B, на большинстве промптов. Модель 32B рекомендовала 5-тонную установку для гаража площадью 400 кв. футов.
- Qwen2.5-7B галлюцинировала на каждом тесте разбора заметок — постоянно выдумывала детали.
📖 Прочитать полный источник: r/LocalLLaMA
👀 Смотрите также

Создание дистрибутива Linux с помощью Claude AI: Практическое руководство для разработчика
Разработчик с 23-летним опытом в технологиях создал NubiferOS, защищённый дистрибутив Linux, используя Claude AI в качестве всей команды разработчиков. Проект включал 10-15 одновременных сессий Claude, сгенерировал ~39 300 строк кода и ~57 500 строк документации без единой строки кода, написанной человеком.

Многокомпонентный ИИ-конвейер для написания романов с использованием Claude и Zencoder
Разработчик создал многокомпонентный AI-пайплайн с использованием Claude через Zencoder в WebStorm для написания длинных художественных произведений, опубликовав четыре романа на KDP с циклом от концепции до черновика за считанные дни. Открытый рабочий процесс включает файлы инструкций для агентов с конкретными ролями, такими как генерация идей, проверка согласованности и написание прозы.

ИТ-панель на базе OpenClaw создаёт заявки из чат-переписок.
Разработчик создал единый HTML-файл для IT-панели управления службы поддержки с ИИ-агентом, который автоматически создаёт заявки из чат-переписок. Система использует OpenClaw для бэкенда и localStorage для хранения данных в прототипе.

Использование Claude для создания конвейера генерации лидов в LinkedIn, который заменил предложение фрилансера за €3 000
Разработчик потратил 30 минут на написание подробного 2-страничного промпта с Claude Sonnet, чтобы создать систему генерации лидов для LinkedIn, которая идентифицирует посты с лид-магнитами, фильтрует и оценивает потенциальных клиентов, работает ежедневно на VPS за $5, заменяя предложения фрилансеров от €2000 до €5000.