RTX 5000 Pro 48GB: 4400 ток/с для Qwen3.6-27B с KV-кэшем

Один разработчик рискнул, выбрав RTX 5000 Pro 48GB ($4300 с налогами) вместо Mac Studio — и цифры оправдывают скачок: до 4400 токенов/сек при обработке промптов (PP) и 50–80 ток/с при генерации текста (TG) с Qwen3.6-27B-FP8 и полным KV-кэшем BF16.

Состав оборудования и стоимость

Цена GPU: $4300 (с налогами)
Общая стоимость сборки: $5600 с 64GB RAM
Лимит контекста: 200K токенов с полной точностью (KV-кэш BF16)

Производительность

Обработка промптов: 4400 ток/с
Генерация текста: 50–60 ток/с для очень больших промптов, до 80 ток/с для меньших
Модель: Qwen3.6-27B-FP8 с кэшем полной точности
Энергопотребление: Примерно вдвое меньше, чем у двух RTX 5090

Ключевые наблюдения

Пользователь собрал ПК с нулевым опытом, полагаясь на Claude Code (сжег 50% недельного лимита Claude Code Max на настройку vLLM/Linux). Основным ориентиром послужил пост на Reddit с точными настройками vLLM для Qwen3.6-27B-FP8 с BF16-кэшем. Автор отмечает, что две RTX 5090 показали бы лучшую производительность, но стоили бы значительно дороже, а также создавали бы больше шума и потребляли больше энергии.

📖 Читать полный источник: r/LocalLLaMA

RTX 5000 PRO 48GB обеспечивает кэширование точности 4400 ток/с для Qwen3.6-27B

Состав оборудования и стоимость

Производительность

Ключевые наблюдения

👀 Смотрите также

Claude AI открывает объединенный PR для исправления ошибки magic-link, пока разработчик спит

AI-оператор: новая роль для агентных рабочих процессов

Повышение производительности Gemini 3 Flash с помощью конкурентного промптинга

Сообщество NVIDIA DGX Spark запускает Spark Arena для воспроизводимых тестов LLM.