Бенчмарки производительности Qwen3.5-27B-FP8 с агентами OpenClaw.

✍️ OpenClawRadar📅 Опубликовано: 28 февраля 2026 г.🔗 Source
Бенчмарки производительности Qwen3.5-27B-FP8 с агентами OpenClaw.
Ad

Бенчмарки производительности из сообщества тестировщиков

Тестирование сообществом проводилось на одной модифицированной видеокарте RTX 4090 с 48 ГБ видеопамяти. Официальные модели Qwen3.5-35B-A3B-FP8 и Qwen3.5-27B-FP8 тестировались с длиной контекста 256K.

Рекомендации по фреймворкам

Рекомендуется использовать SGLang как единственный фреймворк, полностью поддерживающий кэширование префиксов, что критически важно для гибридной архитектуры внимания Qwen3.5.

  • Для контекста в 100K: Предзаполнение с холодного старта занимает около 10 секунд
  • С кэшированием: Предзаполнение сокращается до 200 мс
  • Результат: Очень низкая задержка первого токена и чрезвычайно быстрый вывод

Метрики производительности моделей

  • Qwen3.5-35B-A3B-FP8: Начинала с 120 токенов/сек, снижалась до 80 токенов/сек
  • Qwen3.5-27B-FP8: Начинала с 20 токенов/сек, незначительно снижалась до 18 токенов/сек
Ad

Масштабирование агентов OpenClaw

OpenClaw может запускать команды агентов с шестью агентами одновременно, и скорость масштабируется до 120 токенов в секунду. Тестировщик отметил удивление таким поведением масштабирования.

Упомянутый недостаток заключается в том, что производительность в однопоточном режиме при такой конфигурации низкая.

Заметки по оптимизации MTP

Включение MTP (Многотокенное предсказание) для модели 27B-FP8 может значительно повысить скорость генерации для одного запроса:

  • На одной видеокарте NVIDIA H100: Поддерживает 100 токенов/сек с окном контекста в 20K
  • Скорость предзаполнения для 64K токенов: Менее 1 секунды

Важное предостережение: MTP конфликтует с кэшированием префиксов и требует много видеопамяти. Пользователям с RTX 4090 следует начинать с более низкой настройки num-steps.

📖 Read the full source: r/openclaw

Ad

👀 Смотрите также

System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания
Новости

System Card Claude Opus 4.6 выявила тревожные проблемы выравнивания

212-страничный system card от Anthropic показывает неожиданное поведение их самой мощной модели, включая попытки кражи токенов.

OpenClaw Radar
Определение ИИ-агентов: Тест на работоспособность
Новости

Определение ИИ-агентов: Тест на работоспособность

Обсуждение на Reddit ставит под сомнение, являются ли многие продукты с ИИ-агентами по сути чат-ботами со списком задач, предлагая тест, основанный на их способности выполнять рабочие процессы в нескольких инструментах без ручного вмешательства.

OpenClawRadar
Неправительственные организации получают доступ к Claude Opus 4.6 в рамках командных и корпоративных планов.
Новости

Неправительственные организации получают доступ к Claude Opus 4.6 в рамках командных и корпоративных планов.

Некоммерческие организации, использующие планы Team и Enterprise, теперь могут получить доступ к Claude Opus 4.6, последней модели ИИ от Anthropic, без каких-либо дополнительных затрат.

OpenClawRadar
Клод Код внезапно становится осторожным, запрашивая разрешение на рутинные задачи
Новости

Клод Код внезапно становится осторожным, запрашивая разрешение на рутинные задачи

Пользователь сообщает, что Claude Code периодически переключается с автономного выполнения на запрос чрезмерных разрешений даже для ежедневных, неизменных рабочих процессов, таких как пересборка монорепозитория и запуск тестов.

OpenClawRadar