Ausführen eines 1-Billionen-Parameter-LLM lokal auf einem AMD Ryzen AI Max+-Cluster

✍️ OpenClawRadar📅 Veröffentlicht: 1. März 2026🔗 Source
Ausführen eines 1-Billionen-Parameter-LLM lokal auf einem AMD Ryzen AI Max+-Cluster
Ad

Ausführung eines 1-Billion-Parameter-LLM lokal auf einem AMD Ryzen AI Max+ Cluster

Der technische Artikel von AMD beschreibt detailliert, wie ein kleines verteiltes Inferenz-Cluster mit vier Framework Desktop-Systemen mit Ryzen AI Max+ 395 Prozessoren aufgebaut und das Kimi K2.5 Open-Source-Modell (1 Billion Parameter, 375 GB) unter Verwendung von llama.cpp RPC ausgeführt wird. Das Setup behandelt die vier Maschinen als einen einzigen logischen KI-Beschleuniger.

Hardware- und Software-Stack

  • Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 GB
  • KI-Framework: AMD ROCm
  • Inferenz-Engine: Llama.cpp RPC
  • Betriebssystem: Ubuntu 24.04.3 LTS
  • Modell: Kimi-K2.5 (UD_Q2_K_XL) (375 GB)
  • Netzwerk: 5 Gbps über Ethernet

Technische Einrichtung: Erweiterte VRAM-Zuweisung

Für jedes Ryzen AI Max+ System muss im BIOS zunächst die iGPU-Speichergröße auf 512 MB eingestellt werden. Der maximale dedizierte VRAM pro Knoten über das BIOS beträgt 96 GB (384 GB insgesamt über vier Knoten). Durch die Verwendung von Translation Table Manager (TTM)-Kernelparametern wird dies auf 120 GB pro Knoten erhöht (480 GB insgesamt).

Kernelparameter konfigurieren:

sudo nano /etc/default/grub

Zeile finden, die mit GRUB_CMDLINE_LINUX_DEFAULT= beginnt, und innerhalb der Anführungszeichen anhängen:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

TTM-Grenzwerte werden in 4-KB-Seiten ausgedrückt. Berechnung für 120 GB: (120 * 1024 * 1024) / 4,096 = 30720000

Nach dem Speichern und Beenden ausführen:

sudo update-grub
sudo reboot

Konfiguration überprüfen:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.
Ad

Einrichtungsoption 1: Lemonade SDK (Empfohlen)

Vorgefertigte Binärdateien herunterladen von: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Archiv herunterladen, das Ihrer Plattform und GPU-Zielarchitektur entspricht: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Entpacken und vorbereiten:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

GPU-Erkennung überprüfen:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

Einrichtungsoption 2: Manueller Quellcode-Build

ROCm 7.0.2 auf Ubuntu 24.04.3 installieren:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

Der Artikel setzt sich mit weiteren Einrichtungsschritten und Details zur Inferenzkonfiguration fort.

📖 Den vollständigen Quelltext lesen: HN LLM Tools

Ad

👀 Siehe auch