RTX 5000 PRO 48GB обеспечивает кэширование точности 4400 ток/с для Qwen3.6-27B

✍️ OpenClawRadar📅 Опубликовано: 14 мая 2026 г.🔗 Source
RTX 5000 PRO 48GB обеспечивает кэширование точности 4400 ток/с для Qwen3.6-27B
Ad

Один разработчик рискнул, выбрав RTX 5000 Pro 48GB ($4300 с налогами) вместо Mac Studio — и цифры оправдывают скачок: до 4400 токенов/сек при обработке промптов (PP) и 50–80 ток/с при генерации текста (TG) с Qwen3.6-27B-FP8 и полным KV-кэшем BF16.

Состав оборудования и стоимость

  • Цена GPU: $4300 (с налогами)
  • Общая стоимость сборки: $5600 с 64GB RAM
  • Лимит контекста: 200K токенов с полной точностью (KV-кэш BF16)

Производительность

  • Обработка промптов: 4400 ток/с
  • Генерация текста: 50–60 ток/с для очень больших промптов, до 80 ток/с для меньших
  • Модель: Qwen3.6-27B-FP8 с кэшем полной точности
  • Энергопотребление: Примерно вдвое меньше, чем у двух RTX 5090
Ad

Ключевые наблюдения

Пользователь собрал ПК с нулевым опытом, полагаясь на Claude Code (сжег 50% недельного лимита Claude Code Max на настройку vLLM/Linux). Основным ориентиром послужил пост на Reddit с точными настройками vLLM для Qwen3.6-27B-FP8 с BF16-кэшем. Автор отмечает, что две RTX 5090 показали бы лучшую производительность, но стоили бы значительно дороже, а также создавали бы больше шума и потребляли больше энергии.

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Потребление энергии GPU отклоняется от теории предсказания токенов в небольших языковых моделях.
Новости

Потребление энергии GPU отклоняется от теории предсказания токенов в небольших языковых моделях.

Эксперимент по проверке теории «стохастического попугая» на четырёх моделях с 8 миллиардами параметров показал, что энергопотребление GPU часто масштабируется нелинейно с количеством токенов, с показателями расхождения от 7,7% до 36,7%. Исследование также выявило устойчивое остаточное тепло после философских запросов и эффекты, зависящие от порядка выполнения.

OpenClawRadar
Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.
Новости

Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.

Разработчики ядра Linux предлагают удалить несколько устаревших подсистем, включая драйверы Ethernet ISA/PCMCIA, протоколы любительского радио, ATM и ISDN, чтобы снизить нагрузку от обработки отчетов об уязвимостях, генерируемых большими языковыми моделями.

OpenClawRadar
Claude Code 2.1.76 добавляет функцию MCP-запросов, улучшения в работе с рабочими деревьями и исправления, связанные с ограничениями контекста.
Новости

Claude Code 2.1.76 добавляет функцию MCP-запросов, улучшения в работе с рабочими деревьями и исправления, связанные с ограничениями контекста.

Версия Claude Code 2.1.76 добавляет поддержку MCP для структурированного ввода во время задач, включает worktree.sparsePaths для больших монорепозиториев и исправляет ошибки 'Достигнут лимит контекста' в сессиях с 1 млн контекстов. Версия 2.1.75 сделала окна в 1 млн контекстов стандартными для Opus 4.6 на планах Max, Team и Enterprise.

OpenClawRadar
Новый релиз OpenClaw: простое изменение имени или значительное обновление?
Новости

Новый релиз OpenClaw: простое изменение имени или значительное обновление?

OpenClaw, ранее известный как ClawDBot, претерпел трансформацию. Читайте дальше, чтобы узнать, является ли это изменение просто косметическим или же вводит новые функции и улучшенную стабильность.

OpenClawRadar