V100 кластер против MoE: сборка 12x SXM2 32GB с оркестрацией Claude Code

Юрист, использующий кластер из 12 V100 32GB SXM2 на Threadripper Pro, сообщает, что на GPU Volta (вычислительная способность 7.0) только MoE-модели обеспечивают приемлемую скорость декодирования. Плотные модели — ловушка: даже плотная модель 27-32B выдает 20-28 токенов/с, что ниже порога в 40 токенов/с. Для сравнения, Qwen3.5-122B-A10B (122B всего, 10B активных) достигает ~50 токенов/с на одной плате с 4 GPU через NVLink, а Gemma-4-26B-A4B — ~113 токенов/с. Все бенчмарки используют Q8 GGUF с Q4 KV cache и flash-attention.
Конфигурация оборудования
Финальная сборка: двенадцать V100-SXM2 32GB на Threadripper Pro. Две платы NVLink (по 4 GPU каждая) и две смешанные пары. Плата A занимает GPU {4,5,8,9}, плата B — {6,7,10,11}. Пара NVLink находится на {0,1}, смешанная пара — на {2,3}, где одна карта имеет 16GB. Переходы между платами идут через PCIe/NUMA, а не NVLink, что убивает пропускную способность. Все модели размещаются в пределах одной платы.
Был добавлен второй компьютер: EPYC 7302P, 512GB RAM, 4x RTX 3090 + 2x V100-PCIe, работающий под Ollama для более мелких моделей.
Смена стека: vLLM → llama.cpp
Оператор отказался от vLLM, потому что нужные ему модели — это MoE GGUF, а vLLM на Volta для них тупиковый — ядра FP8/AWQ/Marlin требуют SM75+, а ядра GPTQ сломаны на compute 7.0. Он перешел на основную ветку llama.cpp, в которой недавно исправили баг с парсером чата Gemma, искажавший длинные промпты.
Оркестрация с Claude Code
Система не является единой моделью, отвечающей в чате — оркестратор (управляемый Claude Code) распределяет юридические задачи между несколькими локальными моделями, каждая закреплена за своей платой, чтобы избежать конфликтов GPU. Для самой тяжелой задачи (полная аффидавит или ходатайство, от приема до документа) задействованы все 16 GPU на обоих компьютерах:
- Черновая работа: Qwen3.6-35B-A3B на плате A
- Тяжелые рассуждения и ответственная работа: Qwen3.5-122B-A10B на плате B
- Модель-шлюз: маленькая модель на паре {0,1} проверяет, есть ли основания
- Проверяющий-оппонент: атакует черновик на паре {2,3}
- Финансы/извлечение: Gemma-4-26B на 3090 через Ollama
Это последовательный конвейер — модели не долбят одновременно, но все 16 остаются в памяти GPU.
Практические уроки
- Галлюцинации: Локальные модели уверенно фабрикуют цитаты и даты. Верификатор проверяет каждую цитату, дату и номер Bates на соответствие исходным материалам и блокирует необоснованный контент. Сверху работает проверяющий-оппонент.
- Отравление конвейера: Сборщик пакетов доказательств подхватывал собственные предыдущие результаты как доказательства клиента, из-за чего модели «опирались» на свой же ранее написанный бред — один черновик ссылался на RTX 3060 как на номер Bates. Проблема решена очисткой истории ввода сборщика.
Для легких задач требуется гораздо меньше ресурсов — объединение и добавление номеров Bates к экспонатам выполняется чисто на CPU (PyMuPDF + Tesseract), а простые сводки задействуют только Gemma и маршрутизатор.
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Портирование Quake в Three.js с помощью Claude Code: Рабочий процесс и ограничения
Разработчик использовал Claude Code для портирования исходного кода Quake на JavaScript и Three.js, создав веб-версию игры. Проект потребовал значительной работы с промптами и выявил трудности Claude с портированием кода мультиплеерного сервера на Deno+WebTransport.

Не-разработчик создает три производственных приложения с помощью ИИ Claude.
Пользователь без опыта программирования создал три функциональных веб-приложения с помощью Claude AI, включая поисковик цен на топливо, принтер прокси-карт для MTG и инструмент для бюджетирования, развернутые через GitHub, Cloudflare Workers, Cloudflare D1 и Vercel.

Экстренная настройка кодинга: Claude Code на бесплатной виртуальной машине OCI с Termux на Android.
Разработчик делится настройкой с использованием бесплатной виртуальной машины Oracle Cloud Infrastructure (24 ГБ ОЗУ, 4 vCPU) с установленным Claude Code, доступом через Termux на Android для экстренного кодирования, когда ноутбук недоступен. Для настройки требуется подписка Claude Pro ($20/месяц) или Max ($100/месяц).

Архитектура OpenClaw: создание постоянного распределительного движка на основе ИИ.
Архитектура OpenClaw, основанная на подходе с использованием демонов и небольших составных инструментов, декларативных рецептов и слоя памяти, обеспечивает непрерывные и эффективные автоматизированные рабочие процессы.