AMD 라이젠 AI Max+ 클러스터에서 1조 파라미터 LLM을 로컬로 실행하기

AMD Ryzen AI Max+ 클러스터에서 1조 개 매개변수 LLM 로컬 실행
AMD의 기술 문서는 Ryzen AI Max+ 395 프로세서가 탑재된 4개의 Framework Desktop 시스템을 사용하여 소규모 분산 추론 클러스터를 구축하고, llama.cpp RPC를 사용하여 Kimi K2.5 오픈소스 모델(1조 개 매개변수, 375GB)을 실행하는 방법을 상세히 설명합니다. 이 설정은 4대의 머신을 하나의 논리적 AI 가속기로 취급합니다.
하드웨어 및 소프트웨어 스택
- 하드웨어: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
- AI 프레임워크: AMD ROCm
- 추론 엔진: Llama.cpp RPC
- OS: Ubuntu 24.04.3 LTS
- 모델: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
- 네트워크: 이더넷 5Gbps
기술 설정: 확장된 VRAM 할당
각 Ryzen AI Max+ 시스템에 대해, 먼저 BIOS에서 iGPU 메모리 크기를 512MB로 설정해야 합니다. BIOS를 통한 노드당 최대 전용 VRAM은 96GB(4개 노드 전체 384GB)입니다. Translation Table Manager(TTM) 커널 매개변수를 사용하면 노드당 120GB(전체 480GB)로 증가시킬 수 있습니다.
커널 매개변수 구성:
sudo nano /etc/default/grub
GRUB_CMDLINE_LINUX_DEFAULT=로 시작하는 줄을 찾아 따옴표 안에 추가:
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
TTM 제한은 4KB 페이지 단위로 표현됩니다. 120GB 계산: (120 * 1024 * 1024) / 4.096 = 30720000
저장 후 종료한 다음 실행:
sudo update-grub sudo reboot
구성 확인:
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M of VRAM memory ready [drm] amdgpu: 120000M of GTT memory ready.
설정 옵션 1: Lemonade SDK(권장)
사전 빌드된 바이너리 다운로드: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
플랫폼 및 GPU 대상에 맞는 아카이브 다운로드: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
압축 해제 및 준비:
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
GPU 감지 확인:
$ ./llama-cli --list-devices ggml_cuda_init: found 1 ROCm devices: Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32 Available devices: ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544 ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)
설정 옵션 2: 수동 소스 빌드
Ubuntu 24.04.3에 ROCm 7.0.2 설치:
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
이 문서는 추가 설정 단계 및 추론 구성 세부 사항을 계속 설명합니다.
📖 전체 소스 읽기: HN LLM Tools
👀 See Also

개발팀을 위한 실용적인 Claude 코드 워크플로우
레딧 사용자가 Claude Code 모델 선택, 구조화된 워크플로우, 출력 품질 향상을 위한 구체적인 프롬프트 기법을 포함한 내부 프레젠테이션을 공유합니다.

OpenClaw Docker 사용자: 깨진 Discord 및 채널 확장 기능을 수정하려면 커밋 0c926a2c5로 고정하세요.
Docker를 통해 OpenClaw를 업데이트한 후 Discord, Signal, WhatsApp과 같은 채널 확장 기능이 모듈 가져오기 오류로 실패합니다. 이 문제는 커밋 d9c285e93과 두 번째 Docker 특정 버그에서 비롯됩니다. 안정적인 해결책을 위해 커밋 0c926a2c5로 고정하세요.

Manifest의 라우터를 사용하여 Anthropic API 크레딧을 청구하고 연장하는 방법
레딧 게시물은 최대 200달러 상당의 무료 Anthropic API 크레딧을 청구하는 방법과 Manifest의 라우터를 설정하여 간단한 작업에 대해 Haiku와 같은 저렴한 모델로 프롬프트를 자동으로 라우팅하는 방법을 설명합니다. 이를 통해 크레딧의 수명을 한 달에서 여러 달로 연장할 수 있습니다.

OpenClaw 2026.3.7은 Kimi 도구 호출을 중단시킵니다. 2026.3.2 버전으로 다운그레이드하면 회귀 문제가 해결됩니다.
OpenClaw 버전 2026.3.7에는 Kimi API 제공자가 도구를 실행하는 대신 원시 <function_calls> XML을 출력하는 회귀 문제가 있습니다. 해결 방법은 버전 2026.3.2로 다운그레이드하고 호환 가능한 설정 파일을 복원하는 것입니다.