Запуск LLM с 1 триллионом параметров локально на кластере AMD Ryzen AI Max+

✍️ OpenClawRadar📅 Опубликовано: 1 марта 2026 г.🔗 Source

Локальный запуск LLM с 1 триллионом параметров на кластере AMD Ryzen AI Max+

Техническая статья AMD подробно описывает, как построить небольшой распределённый кластер для вывода с использованием четырёх систем Framework Desktop с процессорами Ryzen AI Max+ 395 и запустить открытую модель Kimi K2.5 (1 триллион параметров, 375 ГБ) с помощью llama.cpp RPC. Данная конфигурация рассматривает четыре машины как единый логический AI-ускоритель.

Аппаратное и программное обеспечение

Аппаратное обеспечение: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 ГБ
AI-фреймворк: AMD ROCm
Движок вывода: Llama.cpp RPC
ОС: Ubuntu 24.04.3 LTS
Модель: Kimi-K2.5 (UD_Q2_K_XL) (375 ГБ)
Сеть: Ethernet 5 Гбит/с

Техническая настройка: Расширенное выделение видеопамяти

Для каждой системы Ryzen AI Max+ сначала необходимо в BIOS установить размер памяти iGPU на 512 МБ. Максимальная выделенная видеопамять на узел через BIOS составляет 96 ГБ (всего 384 ГБ на четыре узла). Использование параметров ядра Translation Table Manager (TTM) увеличивает этот объём до 120 ГБ на узел (всего 480 ГБ).

Настройте параметры ядра:

sudo nano /etc/default/grub

Найдите строку, начинающуюся с GRUB_CMDLINE_LINUX_DEFAULT=, и добавьте внутри кавычек:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

Ограничения TTM выражаются в страницах по 4 КБ. Расчёт для 120 ГБ: (120 * 1024 * 1024) / 4.096 = 30720000

После сохранения и выхода выполните:

sudo update-grub
sudo reboot

Проверьте конфигурацию:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.

Вариант настройки 1: Lemonade SDK (рекомендуется)

Скачайте предварительно собранные бинарные файлы по адресу: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Скачайте архив, соответствующий вашей платформе и целевой GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Распакуйте и подготовьте:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

Проверьте обнаружение GPU:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

Вариант настройки 2: Ручная сборка из исходного кода

Установите ROCm 7.0.2 на Ubuntu 24.04.3:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

Статья продолжается дополнительными шагами настройки и деталями конфигурации вывода.

📖 Read the full source: HN LLM Tools

👀 Смотрите также

Гайды

Структурирование кодовых агентов Claude с помощью шаблонов CLAUDE.md и директории .claude/

Разработчик делится своим подходом к запуску нескольких ИИ-агентов с помощью Claude Code, где каждый агент имеет свою собственную директорию с файлом CLAUDE.md и директорией .claude/ с правилами и навыками. Ключевая идея заключается в разделении постоянно активного контекста и рабочих процессов по требованию для оптимизации использования токенов и качества ответов.

28 февр. 2026 г., 15:45 UTC

OpenClawRadar

Гайды

Замена стандартной памяти OpenClaw на Redis и Qdrant для производственных мультиагентных систем

Разработчик заменил стандартную память SQLite в OpenClaw на Redis для временного состояния и Qdrant для постоянной векторной памяти, чтобы решить проблемы масштабирования в многозадачных агентных системах, реализовав семантический поиск, обмен данными между агентами и параллельную запись.

29 мар. 2026 г., 02:45 UTC

OpenClawRadar

Гайды

Снизьте расходы на Claude в 60 раз, передав механические задачи DeepSeek V4 Flash через MCP

Пользователь Reddit сократил расходы на Claude API в 60 раз, перенаправив классификацию файлов, переформатирование JSON и извлечение полей на DeepSeek V4 Flash через простой MCP-инструмент и правило deny-list в CLAUDE.md.

4 мая 2026 г., 12:15 UTC

OpenClawRadar

Гайды

Оптимизация Qwen3.5-9B на RTX 3070 Mobile с помощью ik_llama.cpp: Настройки конфигурации и тесты производительности

Разработчик делится результатами оптимизации запуска модели Qwen3.5-9B Q4_K_M на ноутбуке с видеокартой RTX 3070 Mobile 8GB с использованием ik_llama.cpp, достигая скорости генерации ~50 токенов/сек и значительного улучшения оценки промптов за счёт настройки конфигурации.

25 мар. 2026 г., 19:45 UTC

OpenClawRadar