1 Billion Parameter LLM Lokal Ausführen: AMD Ryzen AI Max+ Cluster Setup

Ausführung eines 1-Billion-Parameter-LLM lokal auf einem AMD Ryzen AI Max+ Cluster

Der technische Artikel von AMD beschreibt detailliert, wie ein kleines verteiltes Inferenz-Cluster mit vier Framework Desktop-Systemen mit Ryzen AI Max+ 395 Prozessoren aufgebaut und das Kimi K2.5 Open-Source-Modell (1 Billion Parameter, 375 GB) unter Verwendung von llama.cpp RPC ausgeführt wird. Das Setup behandelt die vier Maschinen als einen einzigen logischen KI-Beschleuniger.

Hardware- und Software-Stack

Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 GB
KI-Framework: AMD ROCm
Inferenz-Engine: Llama.cpp RPC
Betriebssystem: Ubuntu 24.04.3 LTS
Modell: Kimi-K2.5 (UD_Q2_K_XL) (375 GB)
Netzwerk: 5 Gbps über Ethernet

Technische Einrichtung: Erweiterte VRAM-Zuweisung

Für jedes Ryzen AI Max+ System muss im BIOS zunächst die iGPU-Speichergröße auf 512 MB eingestellt werden. Der maximale dedizierte VRAM pro Knoten über das BIOS beträgt 96 GB (384 GB insgesamt über vier Knoten). Durch die Verwendung von Translation Table Manager (TTM)-Kernelparametern wird dies auf 120 GB pro Knoten erhöht (480 GB insgesamt).

Kernelparameter konfigurieren:

sudo nano /etc/default/grub

Zeile finden, die mit GRUB_CMDLINE_LINUX_DEFAULT= beginnt, und innerhalb der Anführungszeichen anhängen:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

TTM-Grenzwerte werden in 4-KB-Seiten ausgedrückt. Berechnung für 120 GB: (120 * 1024 * 1024) / 4,096 = 30720000

Nach dem Speichern und Beenden ausführen:

sudo update-grub
sudo reboot

Konfiguration überprüfen:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.

Einrichtungsoption 1: Lemonade SDK (Empfohlen)

Vorgefertigte Binärdateien herunterladen von: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Archiv herunterladen, das Ihrer Plattform und GPU-Zielarchitektur entspricht: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Entpacken und vorbereiten:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

GPU-Erkennung überprüfen:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

Einrichtungsoption 2: Manueller Quellcode-Build

ROCm 7.0.2 auf Ubuntu 24.04.3 installieren:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

Der Artikel setzt sich mit weiteren Einrichtungsschritten und Details zur Inferenzkonfiguration fort.

📖 Den vollständigen Quelltext lesen: HN LLM Tools

Ausführen eines 1-Billionen-Parameter-LLM lokal auf einem AMD Ryzen AI Max+-Cluster

Ausführung eines 1-Billion-Parameter-LLM lokal auf einem AMD Ryzen AI Max+ Cluster

Hardware- und Software-Stack

Technische Einrichtung: Erweiterte VRAM-Zuweisung

Einrichtungsoption 1: Lemonade SDK (Empfohlen)

Einrichtungsoption 2: Manueller Quellcode-Build

👀 Siehe auch

OpenClaw Onboarding: Wie Du Deinen KI-Agenten Richtig Trainierst

Wie man OpenClaw vollständig lokal mit Ollama ausführt

Implementierung eines wiederkehrenden Meditationssystems für die Kohärenz des OpenClaw-Agenten

Aufbau eines vollständigen BI-Systems mit Claude Code und Metabase für unter 50 USD/Monat