4台のFramework Desktopで1兆パラメータLLMを実行する方法

AMD Ryzen AI Max+クラスターで1兆パラメータのLLMをローカルで実行

AMDの技術記事では、4台のFramework DesktopシステムとRyzen AI Max+ 395プロセッサを使用して小規模な分散推論クラスターを構築し、llama.cpp RPCでKimi K2.5オープンソースモデル（1兆パラメータ、375GB）を実行する方法を詳述しています。このセットアップでは、4台のマシンを単一の論理AIアクセラレータとして扱います。

ハードウェアとソフトウェアスタック

ハードウェア: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
AIフレームワーク: AMD ROCm
推論エンジン: Llama.cpp RPC
OS: Ubuntu 24.04.3 LTS
モデル: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
ネットワーク: 5Gbps Ethernet

技術的セットアップ: 拡張VRAM割り当て

各Ryzen AI Max+システムでは、まずBIOSでiGPUメモリサイズを512MBに設定する必要があります。BIOS経由でのノードあたりの最大専用VRAMは96GB（4ノード合計384GB）です。Translation Table Manager（TTM）カーネルパラメータを使用すると、ノードあたり120GB（4ノード合計480GB）まで増加します。

カーネルパラメータを設定:

sudo nano /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT=で始まる行を見つけ、引用符内に追加:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

TTM制限は4KBページ単位で表されます。120GBの計算: (120 * 1024 * 1024) / 4.096 = 30720000

保存して終了後、実行:

sudo update-grub
sudo reboot

設定を確認:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.

セットアップオプション1: Lemonade SDK（推奨）

事前ビルド済みバイナリをダウンロード: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

プラットフォームとGPUターゲットに一致するアーカイブをダウンロード: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

解凍して準備:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

GPU検出を確認:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

セットアップオプション2: 手動ソースビルド

Ubuntu 24.04.3にROCm 7.0.2をインストール:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

記事では、追加のセットアップ手順と推論設定の詳細が続きます。

📖 完全なソースを読む: HN LLM Tools