Exécution d'un LLM à 1 000 milliards de paramètres localement sur un cluster AMD Ryzen AI Max+

Exécution d'un LLM à 1 trillion de paramètres localement sur un cluster AMD Ryzen AI Max+
L'article technique d'AMD détaille comment construire un cluster d'inférence distribué à petite échelle en utilisant quatre systèmes Framework Desktop équipés de processeurs Ryzen AI Max+ 395 et exécuter le modèle open-source Kimi K2.5 (1 trillion de paramètres, 375 Go) en utilisant llama.cpp RPC. La configuration traite les quatre machines comme un seul accélérateur IA logique.
Pile matérielle et logicielle
- Matériel : 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128 Go
- Framework IA : AMD ROCm
- Moteur d'inférence : Llama.cpp RPC
- Système d'exploitation : Ubuntu 24.04.3 LTS
- Modèle : Kimi-K2.5 (UD_Q2_K_XL) (375 Go)
- Réseau : 5 Gbps via Ethernet
Configuration technique : Allocation étendue de VRAM
Pour chaque système Ryzen AI Max+, le BIOS doit d'abord définir la taille de la mémoire iGPU à 512 Mo. La VRAM dédiée maximale par nœud via le BIOS est de 96 Go (384 Go au total sur quatre nœuds). L'utilisation des paramètres du noyau Translation Table Manager (TTM) augmente ceci à 120 Go par nœud (480 Go au total).
Configurer les paramètres du noyau :
sudo nano /etc/default/grub
Trouvez la ligne commençant par GRUB_CMDLINE_LINUX_DEFAULT= et ajoutez à l'intérieur des guillemets :
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
Les limites TTM sont exprimées en pages de 4 Ko. Calcul pour 120 Go : (120 * 1024 * 1024) / 4,096 = 30720000
Après avoir sauvegardé et quitté, exécutez :
sudo update-grub sudo reboot
Vérifiez la configuration :
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M de mémoire VRAM prête [drm] amdgpu: 120000M de mémoire GTT prête.
Option de configuration 1 : SDK Lemonade (Recommandée)
Téléchargez les binaires pré-construits depuis : https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
Téléchargez l'archive correspondant à votre plateforme et cible GPU : llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
Extrayez et préparez :
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
Vérifiez la détection GPU :
$ ./llama-cli --list-devices ggml_cuda_init: trouvé 1 périphérique ROCm : Périphérique 0 : AMD Radeon Graphics, gfx1151 (0x1151), VMM : non, Taille d'onde : 32 Périphériques disponibles : ggml_backend_cuda_get_available_uma_memory : mémoire_available_kb finale : 127697544 ROCm0 : AMD Radeon Graphics (120000 MiB, 124704 MiB libre)
Option de configuration 2 : Compilation manuelle depuis les sources
Installez ROCm 7.0.2 sur Ubuntu 24.04.3 :
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
L'article continue avec des étapes de configuration supplémentaires et des détails sur la configuration de l'inférence.
📖 Lire la source complète : HN LLM Tools
👀 See Also

Architecture Multi-Agents : Éviter le piège de l'agent unique dans les systèmes d'IA
Un post Reddit identifie l'erreur architecturale courante d'utiliser un seul agent pour plusieurs tâches, ce qui conduit à des systèmes fragiles nécessitant une surveillance constante. La solution proposée est un modèle orchestrateur-spécialiste où chaque agent a un rôle étroit et spécifique.

Création de points d'API avec Claude : Leçons pratiques d'ingénierie de prompts tirées d'un projet de 70+ endpoints
Un développeur a créé plus de 70 points de terminaison d'API d'automatisation LinkedIn avec Claude écrivant 80 % du code, découvrant que traiter les invites comme des contrats avec des contraintes explicites fonctionne mieux que les instructions en langage naturel pour les agents d'action.

Benchmarks 12 Go VRAM : Exécution des modèles Qwen 3.6 et Gemma 4 sur une RTX 4070 Super
Un utilisateur de Reddit partage des benchmarks de vitesse détaillés pour Qwen3.6-35B-A3B, Qwen3.6-27B, Gemma 4 26B et Gemma 4 31B sur une RTX 4070 Super 12 Go utilisant llama.cpp avec des paramètres optimisés.

Configuration Multi-Agent OpenClaw Rentable à l'Aide de Modèles d'Abonnement
Un utilisateur de Reddit décrit comment il achemine toutes les opérations multi-agents d'OpenClaw via des abonnements existants à Anthropic Pro Max à 200 $ et à ChatGPT OpenAI Codex à 200 $, plutôt que d'utiliser des appels API directs, en utilisant des modèles Anthropic moins chers pour les agents simples et des modèles plus complexes pour les autres.