1 Billón de Parámetros Localmente: Guía AMD Ryzen AI Max+

Ejecutando un LLM de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+

El artículo técnico de AMD detalla cómo construir un clúster de inferencia distribuida a pequeña escala utilizando cuatro sistemas Framework Desktop con procesadores Ryzen AI Max+ 395 y ejecutar el modelo de código abierto Kimi K2.5 (1 billón de parámetros, 375GB) usando llama.cpp RPC. La configuración trata las cuatro máquinas como un único acelerador de IA lógico.

Pila de Hardware y Software

Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
Framework de IA: AMD ROCm
Motor de Inferencia: Llama.cpp RPC
Sistema Operativo: Ubuntu 24.04.3 LTS
Modelo: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
Red: 5Gbps sobre Ethernet

Configuración Técnica: Asignación Extendida de VRAM

Para cada sistema Ryzen AI Max+, la BIOS debe configurar primero el Tamaño de Memoria de iGPU a 512MB. La VRAM dedicada máxima por nodo a través de la BIOS es de 96GB (384GB total en cuatro nodos). Usando parámetros del kernel Translation Table Manager (TTM) se aumenta esto a 120GB por nodo (480GB total).

Configurar parámetros del kernel:

sudo nano /etc/default/grub

Encontrar la línea que comienza con GRUB_CMDLINE_LINUX_DEFAULT= y agregar dentro de las comillas:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

Los límites de TTM se expresan en páginas de 4 KB. Cálculo para 120GB: (120 * 1024 * 1024) / 4.096 = 30720000

Después de guardar y salir, ejecutar:

sudo update-grub
sudo reboot

Verificar configuración:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M de memoria VRAM lista
[drm] amdgpu: 120000M de memoria GTT lista.

Opción de Configuración 1: Lemonade SDK (Recomendada)

Descargar binarios precompilados desde: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Descargar el archivo que coincida con su plataforma y objetivo de GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Extraer y preparar:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

Verificar detección de GPU:

$ ./llama-cli --list-devices
ggml_cuda_init: encontró 1 dispositivo ROCm:
Dispositivo 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Tamaño de Onda: 32
Dispositivos disponibles:
ggml_backend_cuda_get_available_uma_memory: memoria_final_disponible_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB libre)

Opción de Configuración 2: Compilación Manual desde Fuentes

Instalar ROCm 7.0.2 en Ubuntu 24.04.3:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

El artículo continúa con pasos de configuración adicionales y detalles de configuración de inferencia.

📖 Leer la fuente completa: HN LLM Tools

Ejecutando un Modelo de Lenguaje de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+

Ejecutando un LLM de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+

Pila de Hardware y Software

Configuración Técnica: Asignación Extendida de VRAM

Opción de Configuración 1: Lemonade SDK (Recomendada)

Opción de Configuración 2: Compilación Manual desde Fuentes

👀 Ver también

Cómo ejecutar agentes OpenClaw de forma gratuita usando APIs en la nube o modelos locales

30 días de Claude para negocios freelance: 5 indicaciones que funcionan

Solución alternativa para acceder a OpenClaw Claude mediante Claude Code CLI

Claude Code Hoja de Trucos con 140 Consejos y Archivo LLMs.txt