RTX 5000 PRO 48GB обеспечивает кэширование точности 4400 ток/с для Qwen3.6-27B

Один разработчик рискнул, выбрав RTX 5000 Pro 48GB ($4300 с налогами) вместо Mac Studio — и цифры оправдывают скачок: до 4400 токенов/сек при обработке промптов (PP) и 50–80 ток/с при генерации текста (TG) с Qwen3.6-27B-FP8 и полным KV-кэшем BF16.
Состав оборудования и стоимость
- Цена GPU: $4300 (с налогами)
- Общая стоимость сборки: $5600 с 64GB RAM
- Лимит контекста: 200K токенов с полной точностью (KV-кэш BF16)
Производительность
- Обработка промптов: 4400 ток/с
- Генерация текста: 50–60 ток/с для очень больших промптов, до 80 ток/с для меньших
- Модель: Qwen3.6-27B-FP8 с кэшем полной точности
- Энергопотребление: Примерно вдвое меньше, чем у двух RTX 5090
Ключевые наблюдения
Пользователь собрал ПК с нулевым опытом, полагаясь на Claude Code (сжег 50% недельного лимита Claude Code Max на настройку vLLM/Linux). Основным ориентиром послужил пост на Reddit с точными настройками vLLM для Qwen3.6-27B-FP8 с BF16-кэшем. Автор отмечает, что две RTX 5090 показали бы лучшую производительность, но стоили бы значительно дороже, а также создавали бы больше шума и потребляли больше энергии.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Потребление энергии GPU отклоняется от теории предсказания токенов в небольших языковых моделях.
Эксперимент по проверке теории «стохастического попугая» на четырёх моделях с 8 миллиардами параметров показал, что энергопотребление GPU часто масштабируется нелинейно с количеством токенов, с показателями расхождения от 7,7% до 36,7%. Исследование также выявило устойчивое остаточное тепло после философских запросов и эффекты, зависящие от порядка выполнения.

Разработчики ядра Linux предлагают удалить устаревший код из-за отчетов об ошибках, сгенерированных ИИ.
Разработчики ядра Linux предлагают удалить несколько устаревших подсистем, включая драйверы Ethernet ISA/PCMCIA, протоколы любительского радио, ATM и ISDN, чтобы снизить нагрузку от обработки отчетов об уязвимостях, генерируемых большими языковыми моделями.

Claude Code 2.1.76 добавляет функцию MCP-запросов, улучшения в работе с рабочими деревьями и исправления, связанные с ограничениями контекста.
Версия Claude Code 2.1.76 добавляет поддержку MCP для структурированного ввода во время задач, включает worktree.sparsePaths для больших монорепозиториев и исправляет ошибки 'Достигнут лимит контекста' в сессиях с 1 млн контекстов. Версия 2.1.75 сделала окна в 1 млн контекстов стандартными для Opus 4.6 на планах Max, Team и Enterprise.

Новый релиз OpenClaw: простое изменение имени или значительное обновление?
OpenClaw, ранее известный как ClawDBot, претерпел трансформацию. Читайте дальше, чтобы узнать, является ли это изменение просто косметическим или же вводит новые функции и улучшенную стабильность.