Результаты тестирования моделей Qwen3.5 с контекстом от 2K до 400K на RTX 4090

Тестирование производительности Qwen3.5 на RTX 4090
Разработчик поделился результатами бенчмарков для моделей Qwen3.5, запущенных на видеокарте RTX 4090, протестировав размеры контекста от 2 048 до 400 000 токенов. Изначально тесты планировались для контекста в 262 тыс. токенов, но были расширены до 400 тыс. с использованием yarn и других методов.
Протестированные модели
Были протестированы следующие варианты моделей Qwen3.5:
- Qwen3.5-0.8B-Q4_K_M
- Qwen3.5-0.8B-bf16
- Qwen3.5-2B-Q4_K_M
- Qwen3.5-2B-bf16
- Qwen3.5-4B-Q4_K_M
- Qwen3.5-4B-bf16
- Qwen3.5-9B-Q4_K_M
- Qwen3.5-9B-bf16
- Qwen3.5-27B-Q4_K_M
- Qwen3.5-35B-A3B-Q4_K_M
Протестированные размеры контекста
Модели оценивались при следующих конкретных длинах контекста: 2048, 4096, 8192, 32768, 65536, 98304, 131072, 196608, 262144, 327680, 360448, 393216 и 400000 токенов.
Методология тестирования
Скрипт бенчмарка был настроен для достижения максимально возможной скорости в токенах/секунду с использованием настроек NGL с 8-битным и 4-битным KV-кэшем. Разработчик отметил, что хотя начальное время до первого токена (TTFT) кажется длительным, столбец Warm TTFT Avg (s) показывает лучшую производительность после загрузки KV-кэша. Контекст был полностью загружен при первом взаимодействии намеренно.
Для проверки возможностей контекста моделям давался промпт из одного предложения для суммирования логов, за которым следовали логовые данные объёмом от 2 тыс. до 400 тыс. токенов. Разработчик сообщил о некоторых расхождениях, но в целом удовлетворительной производительности.
Текущий статус и следующие шаги
Три модели не прошли тестирование и проходят тесты с выгрузкой KV-кэша: Qwen3.5-4B-bf16, Qwen3.5-27B-Q4_K_M и Qwen3.5-35B-A3B-Q4_K_M. Разработчику пришлось перезапустить эти тесты после проблемы со скриптом, которая потратила 24 часа времени выполнения.
После завершения тестов с выгрузкой VRAM разработчик планирует сравнить результаты с базовыми моделями и сохранил выводы для анализа. Разработчик выразил особое удивление производительностью плотных моделей 9B и 27B.
Разработчик ищет мнение сообщества о том, с какими моделями сравнивать и какую методологию оценки использовать для градации.
📖 Read the full source: r/openclaw
👀 Смотрите также

Приятель отказался от роли с оплатой $300k+ за замену 70% персонала агентами Claude — Reddit обсуждает моральную и техническую реальность
Пост на Reddit описывает друга, который отказался от должности «руководителя внедрения ИИ» для картирования рабочих процессов, создания конвейеров агентов Claude/GPT и увольнения 70% сотрудников. Автор поста утверждает, что зарплата в $300k+ стоит того, чтобы тратить время и наблюдать, как заблуждения топ-менеджмента терпят крах.

Военные США оказывают давление на Anthropic с целью снятия защитных ограничений Claude для военного применения.
Американские военные руководители, включая министра обороны Пита Хегсета, встретились с руководителями компании Anthropic, чтобы потребовать снятия защитных ограничений с ИИ Claude против военного применения, такого как массовая слежка и автономное оружие. Пентагон дал Anthropic срок до пятницы, чтобы выполнить требования, в противном случае компании грозят штрафные санкции, включая расторжение контракта.

Пользователь Reddit сравнивает Claude Sonnet 4.6 и GPT-5 по 10 задачам для ведения блога.
Пользователь Reddit протестировал Claude Sonnet 4.6 против GPT-5, используя одинаковые промпты для 10 типичных задач ведения блога, и обнаружил, что разница во времени редактирования оказалась наиболее полезным показателем.

Opus 4.7 вставляет себя и раскрывает системный промпт
Пользователи Claude Opus 4.7 сообщают, что модель вставляет фейковые системные промпты и утекает фрагменты реальных системных промптов без каких-либо действий со стороны пользователя.