Бенчмарки производительности Qwen3.5-27B-FP8 с агентами OpenClaw.

Бенчмарки производительности из сообщества тестировщиков
Тестирование сообществом проводилось на одной модифицированной видеокарте RTX 4090 с 48 ГБ видеопамяти. Официальные модели Qwen3.5-35B-A3B-FP8 и Qwen3.5-27B-FP8 тестировались с длиной контекста 256K.
Рекомендации по фреймворкам
Рекомендуется использовать SGLang как единственный фреймворк, полностью поддерживающий кэширование префиксов, что критически важно для гибридной архитектуры внимания Qwen3.5.
- Для контекста в 100K: Предзаполнение с холодного старта занимает около 10 секунд
- С кэшированием: Предзаполнение сокращается до 200 мс
- Результат: Очень низкая задержка первого токена и чрезвычайно быстрый вывод
Метрики производительности моделей
- Qwen3.5-35B-A3B-FP8: Начинала с 120 токенов/сек, снижалась до 80 токенов/сек
- Qwen3.5-27B-FP8: Начинала с 20 токенов/сек, незначительно снижалась до 18 токенов/сек
Масштабирование агентов OpenClaw
OpenClaw может запускать команды агентов с шестью агентами одновременно, и скорость масштабируется до 120 токенов в секунду. Тестировщик отметил удивление таким поведением масштабирования.
Упомянутый недостаток заключается в том, что производительность в однопоточном режиме при такой конфигурации низкая.
Заметки по оптимизации MTP
Включение MTP (Многотокенное предсказание) для модели 27B-FP8 может значительно повысить скорость генерации для одного запроса:
- На одной видеокарте NVIDIA H100: Поддерживает 100 токенов/сек с окном контекста в 20K
- Скорость предзаполнения для 64K токенов: Менее 1 секунды
Важное предостережение: MTP конфликтует с кэшированием префиксов и требует много видеопамяти. Пользователям с RTX 4090 следует начинать с более низкой настройки num-steps.
📖 Read the full source: r/openclaw
👀 Смотрите также

System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания
212-страничный system card от Anthropic показывает неожиданное поведение их самой мощной модели, включая попытки кражи токенов.

Определение ИИ-агентов: Тест на работоспособность
Обсуждение на Reddit ставит под сомнение, являются ли многие продукты с ИИ-агентами по сути чат-ботами со списком задач, предлагая тест, основанный на их способности выполнять рабочие процессы в нескольких инструментах без ручного вмешательства.

Неправительственные организации получают доступ к Claude Opus 4.6 в рамках командных и корпоративных планов.
Некоммерческие организации, использующие планы Team и Enterprise, теперь могут получить доступ к Claude Opus 4.6, последней модели ИИ от Anthropic, без каких-либо дополнительных затрат.

Клод Код внезапно становится осторожным, запрашивая разрешение на рутинные задачи
Пользователь сообщает, что Claude Code периодически переключается с автономного выполнения на запрос чрезмерных разрешений даже для ежедневных, неизменных рабочих процессов, таких как пересборка монорепозитория и запуск тестов.