Ejecutando un Modelo de Lenguaje de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+

✍️ OpenClawRadar📅 Publicado: 1 de marzo de 2026🔗 Source
Ejecutando un Modelo de Lenguaje de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+
Ad

Ejecutando un LLM de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+

El artículo técnico de AMD detalla cómo construir un clúster de inferencia distribuida a pequeña escala utilizando cuatro sistemas Framework Desktop con procesadores Ryzen AI Max+ 395 y ejecutar el modelo de código abierto Kimi K2.5 (1 billón de parámetros, 375GB) usando llama.cpp RPC. La configuración trata las cuatro máquinas como un único acelerador de IA lógico.

Pila de Hardware y Software

  • Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
  • Framework de IA: AMD ROCm
  • Motor de Inferencia: Llama.cpp RPC
  • Sistema Operativo: Ubuntu 24.04.3 LTS
  • Modelo: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
  • Red: 5Gbps sobre Ethernet

Configuración Técnica: Asignación Extendida de VRAM

Para cada sistema Ryzen AI Max+, la BIOS debe configurar primero el Tamaño de Memoria de iGPU a 512MB. La VRAM dedicada máxima por nodo a través de la BIOS es de 96GB (384GB total en cuatro nodos). Usando parámetros del kernel Translation Table Manager (TTM) se aumenta esto a 120GB por nodo (480GB total).

Configurar parámetros del kernel:

sudo nano /etc/default/grub

Encontrar la línea que comienza con GRUB_CMDLINE_LINUX_DEFAULT= y agregar dentro de las comillas:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

Los límites de TTM se expresan en páginas de 4 KB. Cálculo para 120GB: (120 * 1024 * 1024) / 4.096 = 30720000

Después de guardar y salir, ejecutar:

sudo update-grub
sudo reboot

Verificar configuración:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M de memoria VRAM lista
[drm] amdgpu: 120000M de memoria GTT lista.
Ad

Opción de Configuración 1: Lemonade SDK (Recomendada)

Descargar binarios precompilados desde: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

Descargar el archivo que coincida con su plataforma y objetivo de GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

Extraer y preparar:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

Verificar detección de GPU:

$ ./llama-cli --list-devices
ggml_cuda_init: encontró 1 dispositivo ROCm:
Dispositivo 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Tamaño de Onda: 32
Dispositivos disponibles:
ggml_backend_cuda_get_available_uma_memory: memoria_final_disponible_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB libre)

Opción de Configuración 2: Compilación Manual desde Fuentes

Instalar ROCm 7.0.2 en Ubuntu 24.04.3:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

El artículo continúa con pasos de configuración adicionales y detalles de configuración de inferencia.

📖 Leer la fuente completa: HN LLM Tools

Ad

👀 Ver también

Dominando OpenClaw 101: Una guía para principiantes inspirada en las ideas de Redditor.
Guías

Dominando OpenClaw 101: Una guía para principiantes inspirada en las ideas de Redditor.

Sumérgete en OpenClaw con nuestra guía completa, inspirada en las ideas de la comunidad de Reddit. Evita errores comunes y maximiza tu productividad con estos consejos de expertos.

OpenClawRadar
Solución para el error 'Servicio de VM no está en ejecución' en Cowork en Windows 11
Guías

Solución para el error 'Servicio de VM no está en ejecución' en Cowork en Windows 11

Un usuario de Reddit comparte un comando de PowerShell para solucionar el error 'VM Service Not Running' en Cowork cuando Hyper-V está instalado pero el hipervisor no se inicia al arrancar. La solución implica verificar hypervisorlaunchtype y configurarlo en automático.

OpenClawRadar
Los modelos Qwen3.x fallan silenciosamente en OpenClaw debido a una incompatibilidad en el formato de salida en flujo continuo.
Guías

Los modelos Qwen3.x fallan silenciosamente en OpenClaw debido a una incompatibilidad en el formato de salida en flujo continuo.

Los modelos Qwen3.x en modo de transmisión envían su salida al campo 'reasoning' en lugar de 'content', lo que hace que OpenClaw pase silenciosamente a los modelos de respaldo. Un proxy que traduce los formatos de API e inyecta 'think: false' soluciona el problema, permitiendo la evaluación completa de llamadas a herramientas.

OpenClawRadar
Reduzca los costos de Claude en 60x descargando tareas mecánicas a DeepSeek V4 Flash a través de MCP
Guías

Reduzca los costos de Claude en 60x descargando tareas mecánicas a DeepSeek V4 Flash a través de MCP

Un usuario de Reddit redujo el gasto de la API de Claude en 60x al enrutar la clasificación de archivos, el reformateo de JSON y la extracción de campos a DeepSeek V4 Flash mediante una herramienta MCP simple y una regla de lista de denegación en CLAUDE.md.

OpenClawRadar