Qwen3-30B vs 3.5-35B: Тест на RTX 5090

Сравнение производительности: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Детальное тестирование Qwen3-30B-A3B и недавно выпущенного Qwen3.5-35B-A3B на NVIDIA RTX 5090 выявило компромисс между скоростью и работой с контекстом. Обе модели используют одинаковую архитектуру Mixture of Experts с 3B активными параметрами, при этом версия 3.5 добавляет ещё 5B общих параметров и включает проектор для работы с изображениями.

Аппаратное обеспечение и настройки

GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
Сервер: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
Квантование: Q4_K_M для обеих моделей
KV-кэш: Q8_0 (-ctk q8_0 -ctv q8_0)
Контекст: 32 768 токенов (-c 32768)
Параметры: -ngl 999 -np 4 --flash-attn on -t 12
Модель A: Qwen3-30B-A3B-Q4_K_M (17 GB на диске)
Модель B: Qwen3.5-35B-A3B-Q4_K_M (21 GB на диске)

Обе модели были разогреты тестовым запросом перед замерами времени. Время на стороне сервера измерялось по ответам API, а не по настенным часам.

Результаты скорости вывода

Прямое тестирование llama.cpp /v1/chat/completions показало:

Короткие промпты (8-9 токенов): 30B: 248.2 ток/с, 3.5: 169.5 ток/с
Средние промпты (73-78 токенов): 30B: 236.1 ток/с, 3.5: 163.5 ток/с
Длинные тексты (800 токенов): 30B: 232.6 ток/с, 3.5: 116.3 ток/с
Генерация кода (298-400 токенов): 30B: 233.9 ток/с, 3.5: 161.6 ток/с
Логические задачи (200 токенов): 30B: 234.8 ток/с, 3.5: 158.2 ток/с

Средняя скорость генерации: 30B: 237.1 ток/с, 3.5: 153.8 ток/с (30B на 35% быстрее)

Средняя скорость обработки промптов: 30B: 773.5 токенов/с, 3.5: 518.1 токенов/с

Модель 3.5 демонстрирует интересный регресс на длинных выводах (800 токенов), падая до 116 ток/с против ~160 ток/с на коротких выводах. Обработка промптов медленнее у модели 3.5 из-за большего словаря (248K против 152K токенов).

Использование памяти

Использование VRAM: 30B использует 27.3 GB в простое, 3.5 использует 29.0 GB в простое. Обе модели комфортно помещаются на RTX 5090.

Наблюдения за качеством ответов

Тестирование при temperature=0.7 показало, что обе модели выдают качественные результаты. Ключевые наблюдения:

Креативное письмо: Обе модели справляются хорошо, 3.5 показывает немного более атмосферную прозу
Генерация хайку: Обе создают корректные структуры 5-7-5
Программирование: Обе правильно реализуют LRU-кэш с операциями get/put O(1)

Модель 3.5 значительно лучше справляется с длинным контекстом, демонстрируя линейное масштабирование токенов против 21% деградации у 30B-модели. Различия в качестве минимальны, с небольшим преимуществом 3.5 в структуре и форматировании.

📖 Read the full source: r/LocalLLaMA