Qwen3.5-27B-FP8: 6 Агентов OpenClaw, 120 токенов/с

Бенчмарки производительности из сообщества тестировщиков

Тестирование сообществом проводилось на одной модифицированной видеокарте RTX 4090 с 48 ГБ видеопамяти. Официальные модели Qwen3.5-35B-A3B-FP8 и Qwen3.5-27B-FP8 тестировались с длиной контекста 256K.

Метрики производительности моделей

Qwen3.5-35B-A3B-FP8: Начинала с 120 токенов/сек, снижалась до 80 токенов/сек
Qwen3.5-27B-FP8: Начинала с 20 токенов/сек, незначительно снижалась до 18 токенов/сек

Масштабирование агентов OpenClaw

OpenClaw может запускать команды агентов с шестью агентами одновременно, и скорость масштабируется до 120 токенов в секунду. Тестировщик отметил удивление таким поведением масштабирования.

Упомянутый недостаток заключается в том, что производительность в однопоточном режиме при такой конфигурации низкая.

Заметки по оптимизации MTP

Включение MTP (Многотокенное предсказание) для модели 27B-FP8 может значительно повысить скорость генерации для одного запроса:

На одной видеокарте NVIDIA H100: Поддерживает 100 токенов/сек с окном контекста в 20K
Скорость предзаполнения для 64K токенов: Менее 1 секунды

Важное предостережение: MTP конфликтует с кэшированием префиксов и требует много видеопамяти. Пользователям с RTX 4090 следует начинать с более низкой настройки num-steps.

📖 Read the full source: r/openclaw