Qwen3.5 на RTX 4090: бенчмарки контекста 2K-400K

Тестирование производительности Qwen3.5 на RTX 4090

Разработчик поделился результатами бенчмарков для моделей Qwen3.5, запущенных на видеокарте RTX 4090, протестировав размеры контекста от 2 048 до 400 000 токенов. Изначально тесты планировались для контекста в 262 тыс. токенов, но были расширены до 400 тыс. с использованием yarn и других методов.

Протестированные модели

Были протестированы следующие варианты моделей Qwen3.5:

Qwen3.5-0.8B-Q4_K_M
Qwen3.5-0.8B-bf16
Qwen3.5-2B-Q4_K_M
Qwen3.5-2B-bf16
Qwen3.5-4B-Q4_K_M
Qwen3.5-4B-bf16
Qwen3.5-9B-Q4_K_M
Qwen3.5-9B-bf16
Qwen3.5-27B-Q4_K_M
Qwen3.5-35B-A3B-Q4_K_M

Протестированные размеры контекста

Модели оценивались при следующих конкретных длинах контекста: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 и 400000 токенов.

Методология тестирования

Скрипт бенчмарка был настроен для достижения максимально возможной скорости в токенах/секунду с использованием настроек NGL с 8-битным и 4-битным KV-кэшем. Разработчик отметил, что хотя начальное время до первого токена (TTFT) кажется длительным, столбец Warm TTFT Avg (s) показывает лучшую производительность после загрузки KV-кэша. Контекст был полностью загружен при первом взаимодействии намеренно.

Для проверки возможностей контекста моделям давался промпт из одного предложения для суммирования логов, за которым следовали логовые данные объёмом от 2 тыс. до 400 тыс. токенов. Разработчик сообщил о некоторых расхождениях, но в целом удовлетворительной производительности.

Текущий статус и следующие шаги

Три модели не прошли тестирование и проходят тесты с выгрузкой KV-кэша: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M и Qwen3.5-35B-A3B-Q4_K_M. Разработчику пришлось перезапустить эти тесты после проблемы со скриптом, которая потратила 24 часа времени выполнения.

После завершения тестов с выгрузкой VRAM разработчик планирует сравнить результаты с базовыми моделями и сохранил выводы для анализа. Разработчик выразил особое удивление производительностью плотных моделей 9B и 27B.

Разработчик ищет мнение сообщества о том, с какими моделями сравнивать и какую методологию оценки использовать для градации.

📖 Read the full source: r/openclaw

Результаты тестирования моделей Qwen3.5 с контекстом от 2K до 400K на RTX 4090

Тестирование производительности Qwen3.5 на RTX 4090

Протестированные модели

Протестированные размеры контекста

Методология тестирования

Текущий статус и следующие шаги

👀 Смотрите также

Приятель отказался от роли с оплатой $300k+ за замену 70% персонала агентами Claude — Reddit обсуждает моральную и техническую реальность

Военные США оказывают давление на Anthropic с целью снятия защитных ограничений Claude для военного применения.

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.

Opus 4.7 вставляет себя и раскрывает системный промпт