Бенчмарки спекулятивного декодирования на RTX 3090 с моделями Qwen для бизнес-применений в сфере HVAC

✍️ OpenClawRadar📅 Опубликовано: 28 марта 2026 г.🔗 Source

Аппаратное обеспечение и настройка

Разработчик использовал RTX 3090 24 ГБ, Ryzen 7600X, 32 ГБ ОЗУ и WSL2 Ubuntu. Он перешёл с Ollama на Windows на llama.cpp на WSL Linux со спекулятивным декодированием для внутренней AI-платформы, обрабатывающей поиск клиентов, форматирование предложений, исследование оборудования и разбор неструктурированных заметок о задачах.

Методология тестирования

Они протестировали 16 моделей GGUF из семейств Qwen2.5, Qwen3 и Qwen3.5, все комбинации целевых и черновых моделей, которые помещаются в 24 ГБ видеопамяти, кросс-генерационные пары черновых моделей (черновые модели Qwen2.5 на целевых моделях Qwen3 и наоборот), и отслеживали видеопамять для каждой комбинации, чтобы выявить оффлоадинг на ЦП. Оценка качества проводилась на реальных запросах HVAC-бизнеса для генерации SQL, форматирования предложений, разбора неструктурированных полевых заметок и анализа совместимости оборудования. Они использовали draftbench и llama-throughput-lab для замеров скорости, автоматизируя процесс с помощью Claude Code в течение ночи.

Лучшие результаты по скорости

Qwen3-8B Q8_0 + Qwen3-1.7B Q4_K_M: 279,9 ток/сек (+236% ускорение, 13,6 ГБ видеопамяти)
Qwen2.5-7B Q4_K_M + Qwen2.5-0.5B Q8_0: 205,4 ток/сек (+50% ускорение, ~6 ГБ видеопамяти)
Qwen3-8B Q8_0 + Qwen3-0.6B Q4_0: 190,5 ток/сек (+129% ускорение, 12,9 ГБ видеопамяти)
Qwen3-14B Q4_K_M + Qwen3-0.6B Q4_0: 159,1 ток/сек (+115% ускорение, 13,5 ГБ видеопамяти)
Qwen2.5-14B Q8_0 + Qwen2.5-0.5B Q4_K_M: 137,5 ток/сек (+186% ускорение, ~16 ГБ видеопамяти)
Qwen3.5-35B-A3B Q4_K_M (базовая, без черновой модели): 133,6 ток/сек (22 ГБ видеопамяти)
Qwen2.5-32B Q4_K_M + Qwen2.5-1.5B Q4_K_M: 91,0 ток/сек (+156% ускорение, ~20 ГБ видеопамяти)

Комбинация Qwen3-8B + черновая модель 1,7B достигла 100% уровня принятия — идеальное совпадение черновой модели, где 1,7B точно предсказывает то, что сгенерировала бы 8B.

Проблема с режимом мышления Qwen3.5

Модели Qwen3.5 по умолчанию входят в режим мышления в llama.cpp, генерируя скрытые токены рассуждений перед ответом. Это вызывало нестабильные результаты бенчмарков: 0 ток/сек чередовались с 700 ток/сек, TTFT прыгал между 1 с и 28 с. Только три метода сработали для его отключения:

--jinja + исправленный шаблон чата с жёстко заданным enable_thinking=false ✅
Сырой эндпоинт /completion (полностью обходит шаблон чата) ✅
Всё остальное (системные промпты, суффикс /no_think, трюки с температурой) ❌

Если запускаете Qwen3.5 на llama.cpp, вам нужен исправленный шаблон, иначе получите некорректные бенчмарки.

Результаты оценки качества

Они запустили четыре сложных HVAC-специфичных промпта, тестирующих неоднозначные запросы клиентов, сложные предложения, неструктурированные заметки с опечатками и анализ совместимости оборудования. Ключевые выводы:

Каждая модель провалила математику формулы ценообразования: 8B, 14B, 32B, 35B — ни одна не смогла правильно вычислить $4,811 / (1 - 0,47) = $9,077. LLM не могут надёжно выполнять бизнес-математику — размещайте свои формулы в коде.
Модель 8B справилась с 3 из 4 сложных промптов — хорошо показала себя на неоднозначных запросах, неструктурированных заметках, ежедневных задачах — но провалила технический анализ оборудования.
Модель 35B-A3B была единственной с реальными знаниями в области HVAC — правильно подобрала мощность мини-сплита для неутеплённого гаража в Чикаго, знала, что для холодного климата нужно рекомендовать серию Hyper-Heat, правильно указала, что для однозонной системы не нужен распределительный бокс — но пропустила номер модели в неструктурированных заметках и провалила математику.
Больше ≠ лучше во всём: Qwen3-14B Q4_K_M (159 ток/сек) показала худшие результаты, чем 8B, на большинстве промптов. Модель 32B рекомендовала 5-тонную установку для гаража площадью 400 кв. футов.
Qwen2.5-7B галлюцинировала на каждом тесте разбора заметок — постоянно выдумывала детали.

📖 Прочитать полный источник: r/LocalLLaMA

👀 Смотрите также

Кейсы

Claude AI самостоятельно осваивает пользовательскую терминологию из 300-страничных спецификаций без дополнительных указаний.

Разработчик загрузил в Claude AI более 300 страниц формальных спецификаций в качестве проектных знаний, включая 88 000 слов в 20 документах, 35 фальсификаторов, глоссарий, полевой справочник, набор тестов и инструментарий сжатия. Claude начал оперативно использовать пользовательскую терминологию для описания собственных процессов без дополнительных запросов.

25 февр. 2026 г., 09:45 UTC

OpenClawRadar

Кейсы

Непрограммист запускает 18-агентную систему OpenClaw на Mac mini для цифрового маркетинга.

Владелец агентства цифрового маркетинга без опыта программирования шесть недель управляет системой OpenClaw с 18 агентами на Mac mini M4, что обходится примерно в 100 долларов в месяц за Claude Max Pro плюс 5 долларов в месяц на электричество. В настройке используются три «семейства» агентов, вдохновлённые персонажами сериала «Бриджертон», которые занимаются созданием контента, SEO и задачами разработки.

1 апр. 2026 г., 20:45 UTC

OpenClawRadar

Кейсы

Создание помощника по продажам за $20 в месяц с помощью OpenClaw

Разработчик создал систему продаж на основе OpenClaw, которая отслеживает электронную почту для поиска потенциальных клиентов, исследует перспективы, пишет персонализированные письма для привлечения и готовит краткие материалы для встреч. Система работает на Mac Mini, а затраты на API составляют 20–35 долларов в месяц.

13 мар. 2026 г., 19:45 UTC

OpenClawRadar

Кейсы

Нетехнический фрилансер использует MaxClaw и MiniMax Agent для расширения спектра услуг.

Стратег в социальных сетях без навыков программирования использует MiniMax Agent для создания целевых страниц и MaxClaw для обработки брифингов клиентов и исследования контента, увеличивая ставки за проекты с $1500 до $3200.

1 апр. 2026 г., 05:45 UTC

OpenClawRadar