Сравнение производительности Qwen3-30B-A3B и Qwen3.5-35B-A3B на RTX 5090

✍️ OpenClawRadar📅 Опубликовано: 25 февраля 2026 г.🔗 Source
Сравнение производительности Qwen3-30B-A3B и Qwen3.5-35B-A3B на RTX 5090
Ad

Сравнение производительности: Qwen3-30B-A3B vs Qwen3.5-35B-A3B

Детальное тестирование Qwen3-30B-A3B и недавно выпущенного Qwen3.5-35B-A3B на NVIDIA RTX 5090 выявило компромисс между скоростью и работой с контекстом. Обе модели используют одинаковую архитектуру Mixture of Experts с 3B активными параметрами, при этом версия 3.5 добавляет ещё 5B общих параметров и включает проектор для работы с изображениями.

Аппаратное обеспечение и настройки

  • GPU: NVIDIA RTX 5090 (32 GB VRAM, Blackwell)
  • Сервер: llama.cpp b8115 (Docker: ghcr.io/ggml-org/llama.cpp:server-cuda)
  • Квантование: Q4_K_M для обеих моделей
  • KV-кэш: Q8_0 (-ctk q8_0 -ctv q8_0)
  • Контекст: 32 768 токенов (-c 32768)
  • Параметры: -ngl 999 -np 4 --flash-attn on -t 12
  • Модель A: Qwen3-30B-A3B-Q4_K_M (17 GB на диске)
  • Модель B: Qwen3.5-35B-A3B-Q4_K_M (21 GB на диске)

Обе модели были разогреты тестовым запросом перед замерами времени. Время на стороне сервера измерялось по ответам API, а не по настенным часам.

Ad

Результаты скорости вывода

Прямое тестирование llama.cpp /v1/chat/completions показало:

  • Короткие промпты (8-9 токенов): 30B: 248.2 ток/с, 3.5: 169.5 ток/с
  • Средние промпты (73-78 токенов): 30B: 236.1 ток/с, 3.5: 163.5 ток/с
  • Длинные тексты (800 токенов): 30B: 232.6 ток/с, 3.5: 116.3 ток/с
  • Генерация кода (298-400 токенов): 30B: 233.9 ток/с, 3.5: 161.6 ток/с
  • Логические задачи (200 токенов): 30B: 234.8 ток/с, 3.5: 158.2 ток/с

Средняя скорость генерации: 30B: 237.1 ток/с, 3.5: 153.8 ток/с (30B на 35% быстрее)

Средняя скорость обработки промптов: 30B: 773.5 токенов/с, 3.5: 518.1 токенов/с

Модель 3.5 демонстрирует интересный регресс на длинных выводах (800 токенов), падая до 116 ток/с против ~160 ток/с на коротких выводах. Обработка промптов медленнее у модели 3.5 из-за большего словаря (248K против 152K токенов).

Использование памяти

Использование VRAM: 30B использует 27.3 GB в простое, 3.5 использует 29.0 GB в простое. Обе модели комфортно помещаются на RTX 5090.

Наблюдения за качеством ответов

Тестирование при temperature=0.7 показало, что обе модели выдают качественные результаты. Ключевые наблюдения:

  • Креативное письмо: Обе модели справляются хорошо, 3.5 показывает немного более атмосферную прозу
  • Генерация хайку: Обе создают корректные структуры 5-7-5
  • Программирование: Обе правильно реализуют LRU-кэш с операциями get/put O(1)

Модель 3.5 значительно лучше справляется с длинным контекстом, демонстрируя линейное масштабирование токенов против 21% деградации у 30B-модели. Различия в качестве минимальны, с небольшим преимуществом 3.5 в структуре и форматировании.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

NVIDIA выпускает Nemotron-3-Ultra-550B: 55B активных параметров, контекст 1M, гибрид LatentMoE
Новости

NVIDIA выпускает Nemotron-3-Ultra-550B: 55B активных параметров, контекст 1M, гибрид LatentMoE

NVIDIA выпустила Nemotron-3-Ultra-550B-A55B-BF16 — модель на 550 млрд параметров (55 млрд активных), с контекстом до 1 млн токенов, гибридной архитектурой LatentMoE (Mamba-2 + MoE + Attention + MTP) и настраиваемым режимом рассуждений.

OpenClawRadar
Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.
Новости

Агенты ИИ для написания кода испытывают трудности с управлением контекстом в больших кодовых базах.

Анализ ИИ-агентов для написания кода показывает, что они тратят 15–20 вызовов инструментов на ознакомительные задачи, такие как поиск маршрутов через grep и чтение промежуточного ПО, прежде чем начать писать код, расходуя контекстное окно. Vercel достиг 100% точности, убрав 80% инструментов и используя bash, в то время как Pi использует всего 4 инструмента и системный промпт менее 1000 токенов.

OpenClawRadar
Claude Code якобы отклоняет запросы или взимает дополнительную плату, когда в коммитах упоминается 'OpenClaw'
Новости

Claude Code якобы отклоняет запросы или взимает дополнительную плату, когда в коммитах упоминается 'OpenClaw'

Твит от Theo утверждает, что Claude Code либо отказывает в запросах, либо взимает дополнительную плату, если ваши git-коммиты упоминают 'OpenClaw', что вызвало обсуждение на HN.

OpenClawRadar
Agora-1: Многопользовательская модель мира с открытым исходным кодом для симуляции в реальном времени
Новости

Agora-1: Многопользовательская модель мира с открытым исходным кодом для симуляции в реальном времени

Odyssey выпускает Agora-1 — мировую модель, которая позволяет до четырём агентам (человек или ИИ) совместно использовать симуляцию в реальном времени, используя GoldenEye в качестве тестовой среды.

OpenClawRadar