Настройка Qwen3.5-27B локально: сравнение vLLM и llama.cpp

Производительность и возможности Qwen3.5-27B
Модель Qwen3.5-27B демонстрирует высокую производительность в различных тестах согласно источнику: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, общий показатель интеллекта: 42.1 (лучше, чем 91% сравниваемых моделей), и индекс программирования: 34.9 (превосходит 88% по возможностям кодирования). Модель имеет плотную архитектуру с нативным контекстом 262k, расширяемым до 1M+ токенов.
Сравнение бэкендов: llama.cpp vs vLLM
Источник сравнивает два основных подхода для локального развертывания:
Вариант 1: llama.cpp
- Преимущества: Низкое потребление ресурсов, простая настройка, поддерживает q4 KV кэш для разумного использования VRAM
- Недостатки: Серьезная проблема со случайным очищением KV кэша, что заставляет полностью переобрабатывать промпт в середине сессии. Спекулятивный декодинг через MTP не работает. Известная ошибка без надежных исправлений.
Вариант 2: vLLM
- Преимущества: Стабильные сессии, нет очистки KV кэша, поддерживает спекулятивный декодинг с MTP для более быстрой генерации
- Недостатки: Нет поддержки q4 KV, поэтому VRAM резко возрастает при контексте 256k. Парсинг вызовов инструментов работает с ошибками для Qwen3.5 в v0.17.1, исправления есть в открытых PR на GitHub, но еще не влиты. Это нарушает агентские потоки кодирования с некорректными JSON выходами.
Рекомендуемая конфигурация vLLM
Источник предоставляет конкретные рекомендации по настройке для стабильной и быстрой работы с моделью из HF: osoleve/Qwen3.5-27B-Text-NVFP4-MTP:
- Используйте бэкенд flashinfer cutlass для оптимизированной производительности
- Установите окно контекста на 128k (баланс между VRAM и удобством; увеличьте до 256k при наличии оборудования)
- Ограничьте использование GPU до 0.82, чтобы избежать сбоев из-за нехватки памяти
- Установите max-num-seq на 2 (хорошо обрабатывает одну сессию без перегрузки)
- Включите спекулятивный декодинг MTP для улучшения скорости
- Пропатчите vLLM исправлениями парсинга вызовов инструментов Qwen из открытых PR
- Используйте Claude code cli - в открытом коде все еще есть проблемы с парсингом вызовов инструментов, которые не проявляются в Claude code после патча
Результаты производительности
Согласно источнику, производительность зависит от оборудования:
- На RTX 5090 (32GB VRAM): ~50 TPS
- На RTX Pro 6000 (96GB VRAM): 70 TPS при полном контексте 256k
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Практические советы по настройке OpenClaw из опыта работы с Docker/Windows
Разработчик делится конкретными уроками по запуску OpenClaw на Docker с Windows 11/WSL2, затрагивая проблемы с сохранением данных, настройкой Discord-бота, подходы к управлению памятью и обходные пути для автоматизации браузера.

OpenClaw 101: полное руководство по настройке для новых пользователей

Контрольный список обновления до OpenClaw 3.22: Практические шаги от разработчика, который уже обжёгся
Разработчик делится конкретными шагами по обновлению до OpenClaw 3.22, включая проверку устаревших переменных окружения, создание резервных копий, выполнение команд миграции и проверку совместимости плагинов.

Миграция агентов OpenClaw на Claude Code после прекращения поддержки сторонних оболочек
Разработчик перенёс 17 агентов OpenClaw на Claude Code за один день после того, как Anthropic прекратила поддержку сторонних оболочек. Процесс включал создание точек входа CLAUDE.md, bash-обёрток и cron-заданий с сохранением существующей логики агентов.