1조 파라미터 LLM 로컬 실행: AMD 라이젠 AI Max+ 클러스터 가이드

AMD Ryzen AI Max+ 클러스터에서 1조 개 매개변수 LLM 로컬 실행

AMD의 기술 문서는 Ryzen AI Max+ 395 프로세서가 탑재된 4개의 Framework Desktop 시스템을 사용하여 소규모 분산 추론 클러스터를 구축하고, llama.cpp RPC를 사용하여 Kimi K2.5 오픈소스 모델(1조 개 매개변수, 375GB)을 실행하는 방법을 상세히 설명합니다. 이 설정은 4대의 머신을 하나의 논리적 AI 가속기로 취급합니다.

하드웨어 및 소프트웨어 스택

하드웨어: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
AI 프레임워크: AMD ROCm
추론 엔진: Llama.cpp RPC
OS: Ubuntu 24.04.3 LTS
모델: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
네트워크: 이더넷 5Gbps

기술 설정: 확장된 VRAM 할당

각 Ryzen AI Max+ 시스템에 대해, 먼저 BIOS에서 iGPU 메모리 크기를 512MB로 설정해야 합니다. BIOS를 통한 노드당 최대 전용 VRAM은 96GB(4개 노드 전체 384GB)입니다. Translation Table Manager(TTM) 커널 매개변수를 사용하면 노드당 120GB(전체 480GB)로 증가시킬 수 있습니다.

커널 매개변수 구성:

sudo nano /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT=로 시작하는 줄을 찾아 따옴표 안에 추가:

"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"

TTM 제한은 4KB 페이지 단위로 표현됩니다. 120GB 계산: (120 * 1024 * 1024) / 4.096 = 30720000

저장 후 종료한 다음 실행:

sudo update-grub
sudo reboot

구성 확인:

$ sudo dmesg | grep "amdgpu.*memory"
[drm] amdgpu: 512M of VRAM memory ready
[drm] amdgpu: 120000M of GTT memory ready.

설정 옵션 1: Lemonade SDK(권장)

사전 빌드된 바이너리 다운로드: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/

플랫폼 및 GPU 대상에 맞는 아카이브 다운로드: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip

압축 해제 및 준비:

unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
cd llama-bxxxx-ubuntu-rocm-gfx1151-x64
chmod +x llama-cli llama-server rpc-server

GPU 감지 확인:

$ ./llama-cli --list-devices
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32
Available devices:
ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544
ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)

설정 옵션 2: 수동 소스 빌드

Ubuntu 24.04.3에 ROCm 7.0.2 설치:

wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb
sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb
sudo apt update
sudo apt install python3-setuptools python3-wheel
sudo usermod -a -G render,

이 문서는 추가 설정 단계 및 추론 구성 세부 사항을 계속 설명합니다.

📖 전체 소스 읽기: HN LLM Tools