Qwen3.5-27B локально: vLLM vs llama.cpp

Производительность и возможности Qwen3.5-27B

Модель Qwen3.5-27B демонстрирует высокую производительность в различных тестах согласно источнику: MMLU-Pro: 85.3, MMLU-Redux: 93.3, C-Eval: 90.2, общий показатель интеллекта: 42.1 (лучше, чем 91% сравниваемых моделей), и индекс программирования: 34.9 (превосходит 88% по возможностям кодирования). Модель имеет плотную архитектуру с нативным контекстом 262k, расширяемым до 1M+ токенов.

Сравнение бэкендов: llama.cpp vs vLLM

Источник сравнивает два основных подхода для локального развертывания:

Вариант 1: llama.cpp

Преимущества: Низкое потребление ресурсов, простая настройка, поддерживает q4 KV кэш для разумного использования VRAM
Недостатки: Серьезная проблема со случайным очищением KV кэша, что заставляет полностью переобрабатывать промпт в середине сессии. Спекулятивный декодинг через MTP не работает. Известная ошибка без надежных исправлений.

Вариант 2: vLLM

Преимущества: Стабильные сессии, нет очистки KV кэша, поддерживает спекулятивный декодинг с MTP для более быстрой генерации
Недостатки: Нет поддержки q4 KV, поэтому VRAM резко возрастает при контексте 256k. Парсинг вызовов инструментов работает с ошибками для Qwen3.5 в v0.17.1, исправления есть в открытых PR на GitHub, но еще не влиты. Это нарушает агентские потоки кодирования с некорректными JSON выходами.