Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+

✍️ OpenClawRadar📅 Publicado: March 1, 2026🔗 Source
Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+
Ad

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+

O artigo técnico da AMD detalha como construir um cluster de inferência distribuída em pequena escala usando quatro sistemas Framework Desktop com processadores Ryzen AI Max+ 395 e executar o modelo de código aberto Kimi K2.5 (1 trilhão de parâmetros, 375GB) usando llama.cpp RPC. A configuração trata as quatro máquinas como um único acelerador de IA lógico.

Pilha de Hardware e Software

  • Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
  • Framework de IA: AMD ROCm
  • Motor de Inferência: Llama.cpp RPC
  • Sistema Operacional: Ubuntu 24.04.3 LTS
  • Modelo: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
  • Rede: 5Gbps via Ethernet

Configuração Técnica: Alocação Estendida de VRAM

Para cada sistema Ryzen AI Max+, o BIOS deve primeiro definir o Tamanho da Memória iGPU para 512MB. A VRAM dedicada máxima por nó via BIOS é de 96GB (384GB no total em quatro nós). Usando parâmetros do kernel Translation Table Manager (TTM), isso aumenta para 120GB por nó (480GB no total).

Configure os parâmetros do kernel:

sudo nano /etc/default/grub

Encontre a linha que começa com GRUB_CMDLINE_LINUX_DEFAULT= e adicione dentro das aspas:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

Os limites do TTM são expressos em páginas de 4 KB. Cálculo para 120GB: (120 * 1024 * 1024) / 4.096 = 30720000

Após salvar e sair, execute:

sudo update-grub
sudo reboot

Verifique a configuração:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.
Ad

Opção de Configuração 1: Lemonade SDK (Recomendado)

Baixe os binários pré-construídos em: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Baixe o arquivo correspondente à sua plataforma e alvo de GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Extraia e prepare:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

Verifique a detecção da GPU:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

Opção de Configuração 2: Compilação Manual do Código-Fonte

Instale o ROCm 7.0.2 no Ubuntu 24.04.3:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

O artigo continua com etapas adicionais de configuração e detalhes de configuração de inferência.

📖 Leia a fonte completa: HN LLM Tools

Ad

👀 See Also