LLM 1 Billion Paramètres Local : Cluster Ryzen AI Max+

Exécution d'un LLM à 1 trillion de paramètres localement sur un cluster AMD Ryzen AI Max+

L'article technique d'AMD détaille comment construire un cluster d'inférence distribué à petite échelle en utilisant quatre systèmes Framework Desktop équipés de processeurs Ryzen AI Max+ 395 et exécuter le modèle open-source Kimi K2.5 (1 trillion de paramètres, 375 Go) en utilisant llama.cpp RPC. La configuration traite les quatre machines comme un seul accélérateur IA logique.

Pile matérielle et logicielle

Matériel : 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 Go
Framework IA : AMD ROCm
Moteur d'inférence : Llama.cpp RPC
Système d'exploitation : Ubuntu 24.04.3 LTS
Modèle : Kimi-K2.5 (UD_Q2_K_XL) (375 Go)
Réseau : 5 Gbps via Ethernet

Configuration technique : Allocation étendue de VRAM

Pour chaque système Ryzen AI Max+, le BIOS doit d'abord définir la taille de la mémoire iGPU à 512 Mo. La VRAM dédiée maximale par nœud via le BIOS est de 96 Go (384 Go au total sur quatre nœuds). L'utilisation des paramètres du noyau Translation Table Manager (TTM) augmente ceci à 120 Go par nœud (480 Go au total).

Configurer les paramètres du noyau :

sudo nano /etc/default/grub

Trouvez la ligne commençant par GRUB_CMDLINE_LINUX_DEFAULT= et ajoutez à l'intérieur des guillemets :

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

Les limites TTM sont exprimées en pages de 4 Ko. Calcul pour 120 Go : (120 * 1024 * 1024) / 4,096 = 30720000

Après avoir sauvegardé et quitté, exécutez :

sudo update-grub
sudo reboot

Vérifiez la configuration :

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M de mémoire VRAM prête
[drm] amdgpu: 120000M de mémoire GTT prête.

Option de configuration 1 : SDK Lemonade (Recommandée)

Téléchargez les binaires pré-construits depuis : https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Téléchargez l'archive correspondant à votre plateforme et cible GPU : llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Extrayez et préparez :

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

Vérifiez la détection GPU :

$ ./llama-cli --list-devices
ggml_cuda_init: trouvé 1 périphérique ROCm :
Périphérique 0 : AMD Radeon Graphics, gfx1151 (0x1151), VMM : non, Taille d'onde : 32
Périphériques disponibles :
ggml_backend_cuda_get_available_uma_memory : mémoire_available_kb finale : 127697544
ROCm0 : AMD Radeon Graphics (120000 MiB, 124704 MiB libre)

Option de configuration 2 : Compilation manuelle depuis les sources

Installez ROCm 7.0.2 sur Ubuntu 24.04.3 :

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

L'article continue avec des étapes de configuration supplémentaires et des détails sur la configuration de l'inférence.

📖 Lire la source complète : HN LLM Tools

Exécution d'un LLM à 1 000 milliards de paramètres localement sur un cluster AMD Ryzen AI Max+

Exécution d'un LLM à 1 trillion de paramètres localement sur un cluster AMD Ryzen AI Max+

Pile matérielle et logicielle

Configuration technique : Allocation étendue de VRAM

Option de configuration 1 : SDK Lemonade (Recommandée)

Option de configuration 2 : Compilation manuelle depuis les sources

👀 See Also

Composants d'un Agent de Codage : Comment les Outils, la Mémoire et le Contexte Étendent les LLM

Réglage fin de Qwen 3:0.6B pour la catégorisation de questions – Résultats de base vs résultats ajustés

OpenClaw Intégration : Comment Former Correctement Votre Agent IA

Cinq problèmes courants de configuration d'OpenClaw qui augmentent les coûts des API