Запуск LLM с 1 триллионом параметров локально на кластере AMD Ryzen AI Max+

Локальный запуск LLM с 1 триллионом параметров на кластере AMD Ryzen AI Max+
Техническая статья AMD подробно описывает, как построить небольшой распределённый кластер для вывода с использованием четырёх систем Framework Desktop с процессорами Ryzen AI Max+ 395 и запустить открытую модель Kimi K2.5 (1 триллион параметров, 375 ГБ) с помощью llama.cpp RPC. Данная конфигурация рассматривает четыре машины как единый логический AI-ускоритель.
Аппаратное и программное обеспечение
- Аппаратное обеспечение: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 ГБ
- AI-фреймворк: AMD ROCm
- Движок вывода: Llama.cpp RPC
- ОС: Ubuntu 24.04.3 LTS
- Модель: Kimi-K2.5 (UD_Q2_K_XL) (375 ГБ)
- Сеть: Ethernet 5 Гбит/с
Техническая настройка: Расширенное выделение видеопамяти
Для каждой системы Ryzen AI Max+ сначала необходимо в BIOS установить размер памяти iGPU на 512 МБ. Максимальная выделенная видеопамять на узел через BIOS составляет 96 ГБ (всего 384 ГБ на четыре узла). Использование параметров ядра Translation Table Manager (TTM) увеличивает этот объём до 120 ГБ на узел (всего 480 ГБ).
Настройте параметры ядра:
sudo nano /etc/default/grub
Найдите строку, начинающуюся с GRUB_CMDLINE_LINUX_DEFAULT=, и добавьте внутри кавычек:
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
Ограничения TTM выражаются в страницах по 4 КБ. Расчёт для 120 ГБ: (120 * 1024 * 1024) / 4.096 = 30720000
После сохранения и выхода выполните:
sudo update-grub sudo reboot
Проверьте конфигурацию:
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M of VRAM memory ready [drm] amdgpu: 120000M of GTT memory ready.
Вариант настройки 1: Lemonade SDK (рекомендуется)
Скачайте предварительно собранные бинарные файлы по адресу: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
Скачайте архив, соответствующий вашей платформе и целевой GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
Распакуйте и подготовьте:
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
Проверьте обнаружение GPU:
$ ./llama-cli --list-devices ggml_cuda_init: found 1 ROCm devices: Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32 Available devices: ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544 ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)
Вариант настройки 2: Ручная сборка из исходного кода
Установите ROCm 7.0.2 на Ubuntu 24.04.3:
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
Статья продолжается дополнительными шагами настройки и деталями конфигурации вывода.
📖 Read the full source: HN LLM Tools
👀 Смотрите также

Бесплатный OpenClaw Gateway с локальной LLM на Oracle Cloud
Разработчик делится опытом запуска OpenClaw Gateway с локальной языковой моделью Qwen3.5 27B A3B 4-bit на бесплатном тарифе Oracle Cloud, используя экземпляр VM.Standard.A2.Flex с 4 OCPU, 24 ГБ ОЗУ и 200 ГБ SSD, управляемый удалённо через приложение QCAI.

Метод передачи пользовательского контекста из ChatGPT в Claude
Пользователь Reddit делится двухэтапным методом извлечения детального когнитивного профиля из ChatGPT и создания портативной конституции ИИ для переноса в Claude, решая проблему перехода между системами ИИ.

Практические шаблоны рабочего процесса для надежного кодирования ИИ в проектах с несколькими файлами
Пользователь Reddit делится четырьмя конкретными улучшениями рабочего процесса, которые повысили надежность ИИ-кодинга в многопроектных проектах: начало со спецификации, декомпозиция задач с контрольными точками, стабильные рабочие циклы и ревью только по сигналам.

Практическое руководство по настройке и конфигурации саморазмещаемого ИИ-агента OpenClaw
OpenClaw — это автономный ИИ-агент, который интегрируется с мессенджерами и поддерживает постоянную память через файловую систему. Рекомендации по настройке включают: начать с терминального интерфейса, подключить только один канал обмена сообщениями на старте и правильно настроить файл SOUL.md для определения личности и правил безопасности.