Como Executar LLM de 1 Trilhão de Parâmetros Localmente em Cluster AMD

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+

O artigo técnico da AMD detalha como construir um cluster de inferência distribuída em pequena escala usando quatro sistemas Framework Desktop com processadores Ryzen AI Max+ 395 e executar o modelo de código aberto Kimi K2.5 (1 trilhão de parâmetros, 375GB) usando llama.cpp RPC. A configuração trata as quatro máquinas como um único acelerador de IA lógico.

Pilha de Hardware e Software

Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
Framework de IA: AMD ROCm
Motor de Inferência: Llama.cpp RPC
Sistema Operacional: Ubuntu 24.04.3 LTS
Modelo: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
Rede: 5Gbps via Ethernet

Configuração Técnica: Alocação Estendida de VRAM

Para cada sistema Ryzen AI Max+, o BIOS deve primeiro definir o Tamanho da Memória iGPU para 512MB. A VRAM dedicada máxima por nó via BIOS é de 96GB (384GB no total em quatro nós). Usando parâmetros do kernel Translation Table Manager (TTM), isso aumenta para 120GB por nó (480GB no total).

Configure os parâmetros do kernel:

sudo nano /etc/default/grub

Encontre a linha que começa com GRUB_CMDLINE_LINUX_DEFAULT= e adicione dentro das aspas:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

Os limites do TTM são expressos em páginas de 4 KB. Cálculo para 120GB: (120 * 1024 * 1024) / 4.096 = 30720000

Após salvar e sair, execute:

sudo update-grub
sudo reboot

Verifique a configuração:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.

Opção de Configuração 1: Lemonade SDK (Recomendado)

Baixe os binários pré-construídos em: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Baixe o arquivo correspondente à sua plataforma e alvo de GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Extraia e prepare:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

Verifique a detecção da GPU:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

Opção de Configuração 2: Compilação Manual do Código-Fonte

Instale o ROCm 7.0.2 no Ubuntu 24.04.3:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

O artigo continua com etapas adicionais de configuração e detalhes de configuração de inferência.

📖 Leia a fonte completa: HN LLM Tools

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+

Pilha de Hardware e Software

Configuração Técnica: Alocação Estendida de VRAM

Opção de Configuração 1: Lemonade SDK (Recomendado)

Opção de Configuração 2: Compilação Manual do Código-Fonte

👀 See Also

Estrutura do Espaço de Trabalho OpenClaw e Abordagem de Autossuperação de um Usuário de Longa Data

Método de Codificação de IA com Rédea Curta: Vença a Fábula Mantendo o Controle

Camoufox Injeção de Cookie: Navegue no Reddit como Você Enquanto Seu Agente Faz o Trabalho

Gateway e Habilidades do OpenClaw: Indo Além do Chat para Execução Automatizada