Кастомный сервер 4x RTX PRO 6000 против Dell GB300: выбор для 30 тонко настроенных пайплайнов

Пост на Reddit в r/LocalLLaMA описывает реальный выбор между двумя путями построения локального AI-сервера: собственный 4U многопроцессорный CUDA-сервер против Dell GB300 (аппаратное решение NVIDIA Grace Blackwell). Нагрузка — ~30 доработанных продакшн-пайплайнов (модели 9B-32B, а также более крупные модели зрения/рассуждения), работающих в очереди пакетов. Скорость инференса не является приоритетом — фокус на эксплуатационной зрелости, надежности и перспективности.
Вариант A: собственный сервер с 4-8x RTX PRO 6000
- Шасси: 4U с 8 слотами PCIe Gen 5 x16 (Supermicro AS-4125GS-TNRT, GIGABYTE G493-ZB3-AAP1 или ASUS ESC8000A-E13)
- GPU на старте: 4x NVIDIA RTX PRO 6000 Blackwell Server Edition, по 96 ГБ GDDR7 = 384 ГБ общей VRAM
- Максимум в будущем: 8x GPU = 768 ГБ VRAM
- CPU: два AMD EPYC 9354 (32 ядра) или 9554 (64 ядра), всего 160 линий PCIe Gen 5
- RAM: 512 ГБ DDR5-4800 ECC, расширяемая до 1.5 ТБ
- Хранилище: 2x 960 ГБ NVMe RAID 1 (система) + 4x 7.68 ТБ U.2 NVMe RAID 10 (~15 ТБ горячий слой)
- Сеть: 2x 10GbE + ConnectX-7 200GbE + IPMI
- Питание: 2 контура 208 В/30 А, ~8-10 кВт при полной нагрузке с 8 GPU
- Стоимость: Фаза A (4 GPU) ~$64K-$84K; добавление 4 GPU + RAM ~$44K-$54K; полная сборка ~$108K-$138K
Сильные стороны: стандартная экосистема CUDA, зрелый инструментарий (vLLM, TensorRT-LLM, SGLang), ликвидный рынок перепродажи GPU, модульное обновление, легко найти персонал. Слабость: VRAM распределена по картам; модели >96 ГБ требуют тензорного/пайплайнового параллелизма между картами, что добавляет задержки и сложность.
Вариант B: Dell GB300 (NVIDIA Grace Blackwell)
- Один суперчип GB300: 252 ГБ HBM3e на Blackwell GPU + 496 ГБ LPDDR5X на Grace CPU
- Общая адресуемая память: ~748 ГБ через когерентную унифицированную память NVLink-C2C
- ПО: предустановленный Ubuntu, контракт поддержки Dell
Сильные стороны: единый когерентный пул памяти устраняет необходимость шардинга для больших моделей (MoE, рассуждения с длинным контекстом, полный fine-tune до 748 ГБ). Интегрированное решение от вендора, меньше платформенных рисков. Слабости: менее модульная система, экосистема еще не дозрела по сравнению с x86 CUDA, слабый рынок перепродажи, пропускная способность при одновременной работе нескольких пайплайнов не оптимизирована.
Что хочет узнать автор поста
- Опыт обслуживания, качество поддержки вендора (Dell против системных интеграторов вроде Lambda/Exxact/ThinkMate)
- Стабильность драйверов под нагрузкой, что реально ломается на второй год
- Реальный опыт управления устройствами и эксплуатационной зрелости
Автор явно отвергает предложения с облаком или потребительскими GPU (5090). Решение о локальном размещении принято, бюджет утвержден. Автор хочет честных отзывов от людей, которые реально работали с этим железом, а не читали спецификации.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Построение моста между двумя Telegram-ботами в одном групповом чате: семантика доставки по HTTP
Разработчик делится практическим подходом к соединению двух независимых Telegram-ботов в одном групповом чате, решая проблемы доставки сообщений между ботами с помощью HTTP-ретрансляторов, подтверждений, дедупликации и строго ограниченных лент.

Практические шаблоны рабочего процесса для надежного кодирования ИИ в проектах с несколькими файлами
Пользователь Reddit делится четырьмя конкретными улучшениями рабочего процесса, которые повысили надежность ИИ-кодинга в многопроектных проектах: начало со спецификации, декомпозиция задач с контрольными точками, стабильные рабочие циклы и ревью только по сигналам.

Восстановление удаленных разговоров Claude Desktop из кэша Chromium
Немедленно закройте Claude Desktop, найдите кеш Chromium blockfile в %APPDATA%\Claude\Cache\Cache_Data (Windows), затем используйте Python-пакеты ccl_chromium_reader и стандартные библиотеки сжатия для извлечения HTTP-ответов, содержащих UUID вашего чата.

Шаблоны проектирования CLI для AI-агентов: Заблуждения и практические подходы
В посте на Reddit поясняется, что CLI для агентов означает текстовый протокол интерфейса командной строки, а не обязательно реальную оболочку, и описываются принципы проектирования CLI, удобного для агентов, включая справку в стиле Unix, подсказки и механизмы безопасности, такие как предварительный просмотр в режиме dry-run и авторизация человеком.