Результаты тестирования моделей Qwen3.5 с контекстом от 2K до 400K на RTX 4090

✍️ OpenClawRadar📅 Опубликовано: 7 марта 2026 г.🔗 Source
Результаты тестирования моделей Qwen3.5 с контекстом от 2K до 400K на RTX 4090
Ad

Тестирование производительности Qwen3.5 на RTX 4090

Разработчик поделился результатами бенчмарков для моделей Qwen3.5, запущенных на видеокарте RTX 4090, протестировав размеры контекста от 2 048 до 400 000 токенов. Изначально тесты планировались для контекста в 262 тыс. токенов, но были расширены до 400 тыс. с использованием yarn и других методов.

Протестированные модели

Были протестированы следующие варианты моделей Qwen3.5:

  • Qwen3.5-0.8B-Q4_K_M
  • Qwen3.5-0.8B-bf16
  • Qwen3.5-2B-Q4_K_M
  • Qwen3.5-2B-bf16
  • Qwen3.5-4B-Q4_K_M
  • Qwen3.5-4B-bf16
  • Qwen3.5-9B-Q4_K_M
  • Qwen3.5-9B-bf16
  • Qwen3.5-27B-Q4_K_M
  • Qwen3.5-35B-A3B-Q4_K_M

Протестированные размеры контекста

Модели оценивались при следующих конкретных длинах контекста: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 и 400000 токенов.

Ad

Методология тестирования

Скрипт бенчмарка был настроен для достижения максимально возможной скорости в токенах/секунду с использованием настроек NGL с 8-битным и 4-битным KV-кэшем. Разработчик отметил, что хотя начальное время до первого токена (TTFT) кажется длительным, столбец Warm TTFT Avg (s) показывает лучшую производительность после загрузки KV-кэша. Контекст был полностью загружен при первом взаимодействии намеренно.

Для проверки возможностей контекста моделям давался промпт из одного предложения для суммирования логов, за которым следовали логовые данные объёмом от 2 тыс. до 400 тыс. токенов. Разработчик сообщил о некоторых расхождениях, но в целом удовлетворительной производительности.

Текущий статус и следующие шаги

Три модели не прошли тестирование и проходят тесты с выгрузкой KV-кэша: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M и Qwen3.5-35B-A3B-Q4_K_M. Разработчику пришлось перезапустить эти тесты после проблемы со скриптом, которая потратила 24 часа времени выполнения.

После завершения тестов с выгрузкой VRAM разработчик планирует сравнить результаты с базовыми моделями и сохранил выводы для анализа. Разработчик выразил особое удивление производительностью плотных моделей 9B и 27B.

Разработчик ищет мнение сообщества о том, с какими моделями сравнивать и какую методологию оценки использовать для градации.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

Приятель отказался от роли с оплатой $300k+ за замену 70% персонала агентами Claude — Reddit обсуждает моральную и техническую реальность
Новости

Приятель отказался от роли с оплатой $300k+ за замену 70% персонала агентами Claude — Reddit обсуждает моральную и техническую реальность

Пост на Reddit описывает друга, который отказался от должности «руководителя внедрения ИИ» для картирования рабочих процессов, создания конвейеров агентов Claude/GPT и увольнения 70% сотрудников. Автор поста утверждает, что зарплата в $300k+ стоит того, чтобы тратить время и наблюдать, как заблуждения топ-менеджмента терпят крах.

OpenClawRadar
Военные США оказывают давление на Anthropic с целью снятия защитных ограничений Claude для военного применения.
Новости

Военные США оказывают давление на Anthropic с целью снятия защитных ограничений Claude для военного применения.

Американские военные руководители, включая министра обороны Пита Хегсета, встретились с руководителями компании Anthropic, чтобы потребовать снятия защитных ограничений с ИИ Claude против военного применения, такого как массовая слежка и автономное оружие. Пентагон дал Anthropic срок до пятницы, чтобы выполнить требования, в противном случае компании грозят штрафные санкции, включая расторжение контракта.

OpenClawRadar
Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Новости

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.

Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

OpenClawRadar
Opus 4.7 вставляет себя и раскрывает системный промпт
Новости

Opus 4.7 вставляет себя и раскрывает системный промпт

Пользователи Claude Opus 4.7 сообщают, что модель вставляет фейковые системные промпты и утекает фрагменты реальных системных промптов без каких-либо действий со стороны пользователя.

OpenClawRadar