Настройка Qwen3.5-27B локально: сравнение vLLM и llama.cpp

✍️ OpenClawRadar📅 Опубликовано: 15 марта 2026 г.🔗 Source
Настройка Qwen3.5-27B локально: сравнение vLLM и llama.cpp
Ad

Производительность и возможности Qwen3.5-27B

Модель Qwen3.5-27B демонстрирует высокую производительность в различных тестах согласно источнику: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, общий показатель интеллекта: 42.1 (лучше, чем 91% сравниваемых моделей), и индекс программирования: 34.9 (превосходит 88% по возможностям кодирования). Модель имеет плотную архитектуру с нативным контекстом 262k, расширяемым до 1M+ токенов.

Сравнение бэкендов: llama.cpp vs vLLM

Источник сравнивает два основных подхода для локального развертывания:

Вариант 1: llama.cpp

  • Преимущества: Низкое потребление ресурсов, простая настройка, поддерживает q4 KV кэш для разумного использования VRAM
  • Недостатки: Серьезная проблема со случайным очищением KV кэша, что заставляет полностью переобрабатывать промпт в середине сессии. Спекулятивный декодинг через MTP не работает. Известная ошибка без надежных исправлений.

Вариант 2: vLLM

  • Преимущества: Стабильные сессии, нет очистки KV кэша, поддерживает спекулятивный декодинг с MTP для более быстрой генерации
  • Недостатки: Нет поддержки q4 KV, поэтому VRAM резко возрастает при контексте 256k. Парсинг вызовов инструментов работает с ошибками для Qwen3.5 в v0.17.1, исправления есть в открытых PR на GitHub, но еще не влиты. Это нарушает агентские потоки кодирования с некорректными JSON выходами.
Ad

Рекомендуемая конфигурация vLLM

Источник предоставляет конкретные рекомендации по настройке для стабильной и быстрой работы с моделью из HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:

  • Используйте бэкенд flashinfer cutlass для оптимизированной производительности
  • Установите окно контекста на 128k (баланс между VRAM и удобством; увеличьте до 256k при наличии оборудования)
  • Ограничьте использование GPU до 0.82, чтобы избежать сбоев из-за нехватки памяти
  • Установите max-num-seq на 2 (хорошо обрабатывает одну сессию без перегрузки)
  • Включите спекулятивный декодинг MTP для улучшения скорости
  • Пропатчите vLLM исправлениями парсинга вызовов инструментов Qwen из открытых PR
  • Используйте Claude code cli - в открытом коде все еще есть проблемы с парсингом вызовов инструментов, которые не проявляются в Claude code после патча

Результаты производительности

Согласно источнику, производительность зависит от оборудования:

  • На RTX 5090 (32GB VRAM): ~50 TPS
  • На RTX Pro 6000 (96GB VRAM): 70 TPS при полном контексте 256k

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Практические советы по настройке OpenClaw из опыта работы с Docker/Windows
Гайды

Практические советы по настройке OpenClaw из опыта работы с Docker/Windows

Разработчик делится конкретными уроками по запуску OpenClaw на Docker с Windows 11/WSL2, затрагивая проблемы с сохранением данных, настройкой Discord-бота, подходы к управлению памятью и обходные пути для автоматизации браузера.

OpenClawRadar
OpenClaw 101: полное руководство по настройке для новых пользователей
Гайды

OpenClaw 101: полное руководство по настройке для новых пользователей

u/adamb0mbNZ
Контрольный список обновления до OpenClaw 3.22: Практические шаги от разработчика, который уже обжёгся
Гайды

Контрольный список обновления до OpenClaw 3.22: Практические шаги от разработчика, который уже обжёгся

Разработчик делится конкретными шагами по обновлению до OpenClaw 3.22, включая проверку устаревших переменных окружения, создание резервных копий, выполнение команд миграции и проверку совместимости плагинов.

OpenClawRadar
Миграция агентов OpenClaw на Claude Code после прекращения поддержки сторонних оболочек
Гайды

Миграция агентов OpenClaw на Claude Code после прекращения поддержки сторонних оболочек

Разработчик перенёс 17 агентов OpenClaw на Claude Code за один день после того, как Anthropic прекратила поддержку сторонних оболочек. Процесс включал создание точек входа CLAUDE.md, bash-обёрток и cron-заданий с сохранением существующей логики агентов.

OpenClawRadar