Ausführen eines 1-Billionen-Parameter-LLM lokal auf einem AMD Ryzen AI Max+-Cluster

Ausführung eines 1-Billion-Parameter-LLM lokal auf einem AMD Ryzen AI Max+ Cluster
Der technische Artikel von AMD beschreibt detailliert, wie ein kleines verteiltes Inferenz-Cluster mit vier Framework Desktop-Systemen mit Ryzen AI Max+ 395 Prozessoren aufgebaut und das Kimi K2.5 Open-Source-Modell (1 Billion Parameter, 375 GB) unter Verwendung von llama.cpp RPC ausgeführt wird. Das Setup behandelt die vier Maschinen als einen einzigen logischen KI-Beschleuniger.
Hardware- und Software-Stack
- Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 GB
- KI-Framework: AMD ROCm
- Inferenz-Engine: Llama.cpp RPC
- Betriebssystem: Ubuntu 24.04.3 LTS
- Modell: Kimi-K2.5 (UD_Q2_K_XL) (375 GB)
- Netzwerk: 5 Gbps über Ethernet
Technische Einrichtung: Erweiterte VRAM-Zuweisung
Für jedes Ryzen AI Max+ System muss im BIOS zunächst die iGPU-Speichergröße auf 512 MB eingestellt werden. Der maximale dedizierte VRAM pro Knoten über das BIOS beträgt 96 GB (384 GB insgesamt über vier Knoten). Durch die Verwendung von Translation Table Manager (TTM)-Kernelparametern wird dies auf 120 GB pro Knoten erhöht (480 GB insgesamt).
Kernelparameter konfigurieren:
sudo nano /etc/default/grub
Zeile finden, die mit GRUB_CMDLINE_LINUX_DEFAULT= beginnt, und innerhalb der Anführungszeichen anhängen:
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
TTM-Grenzwerte werden in 4-KB-Seiten ausgedrückt. Berechnung für 120 GB: (120 * 1024 * 1024) / 4,096 = 30720000
Nach dem Speichern und Beenden ausführen:
sudo update-grub sudo reboot
Konfiguration überprüfen:
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M of VRAM memory ready [drm] amdgpu: 120000M of GTT memory ready.
Einrichtungsoption 1: Lemonade SDK (Empfohlen)
Vorgefertigte Binärdateien herunterladen von: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
Archiv herunterladen, das Ihrer Plattform und GPU-Zielarchitektur entspricht: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
Entpacken und vorbereiten:
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
GPU-Erkennung überprüfen:
$ ./llama-cli --list-devices ggml_cuda_init: found 1 ROCm devices: Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32 Available devices: ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544 ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)
Einrichtungsoption 2: Manueller Quellcode-Build
ROCm 7.0.2 auf Ubuntu 24.04.3 installieren:
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
Der Artikel setzt sich mit weiteren Einrichtungsschritten und Details zur Inferenzkonfiguration fort.
📖 Den vollständigen Quelltext lesen: HN LLM Tools
👀 Siehe auch

VPS vs Dedizierte Maschine: Wo OpenClaw Ausführen

OpenClaw 101: Der Ultimative Einrichtungsleitfaden für Neue Nutzer

Korrektur für Unter-Agenten, die in OpenClaw v2026.3.13 nicht angezeigt werden
Eine Problemumgehung für OpenClaw v2026.3.13, bei der benutzerdefinierte Sub-Agenten nicht in der Agentenliste erscheinen: Vereinfachen Sie die openclaw.json-Agentenliste, sodass sie nur IDs enthält, und registrieren Sie Agenten manuell in runs.json mit dem Status 'idle'.

Praktische Workflow-Muster für zuverlässige KI-Codierung in Mehrdatei-Projekten
Ein Reddit-Nutzer teilt vier spezifische Workflow-Verbesserungen, die die Zuverlässigkeit von KI-Codierung bei Projekten mit mehreren Dateien erhöht haben: spezifikationsbasierte Starts, Aufgabenzerlegung mit Kontrollpunkten, stabile Arbeitsabläufe und signalbasierte Überprüfungen.