Ejecutando un Modelo de Lenguaje de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+

Ejecutando un LLM de 1 Billón de Parámetros Localmente en un Clúster AMD Ryzen AI Max+
El artículo técnico de AMD detalla cómo construir un clúster de inferencia distribuida a pequeña escala utilizando cuatro sistemas Framework Desktop con procesadores Ryzen AI Max+ 395 y ejecutar el modelo de código abierto Kimi K2.5 (1 billón de parámetros, 375GB) usando llama.cpp RPC. La configuración trata las cuatro máquinas como un único acelerador de IA lógico.
Pila de Hardware y Software
- Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
- Framework de IA: AMD ROCm
- Motor de Inferencia: Llama.cpp RPC
- Sistema Operativo: Ubuntu 24.04.3 LTS
- Modelo: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
- Red: 5Gbps sobre Ethernet
Configuración Técnica: Asignación Extendida de VRAM
Para cada sistema Ryzen AI Max+, la BIOS debe configurar primero el Tamaño de Memoria de iGPU a 512MB. La VRAM dedicada máxima por nodo a través de la BIOS es de 96GB (384GB total en cuatro nodos). Usando parámetros del kernel Translation Table Manager (TTM) se aumenta esto a 120GB por nodo (480GB total).
Configurar parámetros del kernel:
sudo nano /etc/default/grub
Encontrar la línea que comienza con GRUB_CMDLINE_LINUX_DEFAULT= y agregar dentro de las comillas:
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
Los límites de TTM se expresan en páginas de 4 KB. Cálculo para 120GB: (120 * 1024 * 1024) / 4.096 = 30720000
Después de guardar y salir, ejecutar:
sudo update-grub sudo reboot
Verificar configuración:
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M de memoria VRAM lista [drm] amdgpu: 120000M de memoria GTT lista.
Opción de Configuración 1: Lemonade SDK (Recomendada)
Descargar binarios precompilados desde: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
Descargar el archivo que coincida con su plataforma y objetivo de GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
Extraer y preparar:
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
Verificar detección de GPU:
$ ./llama-cli --list-devices ggml_cuda_init: encontró 1 dispositivo ROCm: Dispositivo 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Tamaño de Onda: 32 Dispositivos disponibles: ggml_backend_cuda_get_available_uma_memory: memoria_final_disponible_kb: 127697544 ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB libre)
Opción de Configuración 2: Compilación Manual desde Fuentes
Instalar ROCm 7.0.2 en Ubuntu 24.04.3:
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
El artículo continúa con pasos de configuración adicionales y detalles de configuración de inferencia.
📖 Leer la fuente completa: HN LLM Tools
👀 Ver también

Dominando OpenClaw 101: Una guía para principiantes inspirada en las ideas de Redditor.
Sumérgete en OpenClaw con nuestra guía completa, inspirada en las ideas de la comunidad de Reddit. Evita errores comunes y maximiza tu productividad con estos consejos de expertos.

Solución para el error 'Servicio de VM no está en ejecución' en Cowork en Windows 11
Un usuario de Reddit comparte un comando de PowerShell para solucionar el error 'VM Service Not Running' en Cowork cuando Hyper-V está instalado pero el hipervisor no se inicia al arrancar. La solución implica verificar hypervisorlaunchtype y configurarlo en automático.

Los modelos Qwen3.x fallan silenciosamente en OpenClaw debido a una incompatibilidad en el formato de salida en flujo continuo.
Los modelos Qwen3.x en modo de transmisión envían su salida al campo 'reasoning' en lugar de 'content', lo que hace que OpenClaw pase silenciosamente a los modelos de respaldo. Un proxy que traduce los formatos de API e inyecta 'think: false' soluciona el problema, permitiendo la evaluación completa de llamadas a herramientas.

Reduzca los costos de Claude en 60x descargando tareas mecánicas a DeepSeek V4 Flash a través de MCP
Un usuario de Reddit redujo el gasto de la API de Claude en 60x al enrutar la clasificación de archivos, el reformateo de JSON y la extracción de campos a DeepSeek V4 Flash mediante una herramienta MCP simple y una regla de lista de denegación en CLAUDE.md.