AMD Ryzen AI Max+クラスターで1兆パラメータのLLMをローカル実行

AMD Ryzen AI Max+クラスターで1兆パラメータのLLMをローカルで実行
AMDの技術記事では、4台のFramework DesktopシステムとRyzen AI Max+ 395プロセッサを使用して小規模な分散推論クラスターを構築し、llama.cpp RPCでKimi K2.5オープンソースモデル(1兆パラメータ、375GB)を実行する方法を詳述しています。このセットアップでは、4台のマシンを単一の論理AIアクセラレータとして扱います。
ハードウェアとソフトウェアスタック
- ハードウェア: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
- AIフレームワーク: AMD ROCm
- 推論エンジン: Llama.cpp RPC
- OS: Ubuntu 24.04.3 LTS
- モデル: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
- ネットワーク: 5Gbps Ethernet
技術的セットアップ: 拡張VRAM割り当て
各Ryzen AI Max+システムでは、まずBIOSでiGPUメモリサイズを512MBに設定する必要があります。BIOS経由でのノードあたりの最大専用VRAMは96GB(4ノード合計384GB)です。Translation Table Manager(TTM)カーネルパラメータを使用すると、ノードあたり120GB(4ノード合計480GB)まで増加します。
カーネルパラメータを設定:
sudo nano /etc/default/grub
GRUB_CMDLINE_LINUX_DEFAULT=で始まる行を見つけ、引用符内に追加:
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
TTM制限は4KBページ単位で表されます。120GBの計算: (120 * 1024 * 1024) / 4.096 = 30720000
保存して終了後、実行:
sudo update-grub sudo reboot
設定を確認:
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M of VRAM memory ready [drm] amdgpu: 120000M of GTT memory ready.
セットアップオプション1: Lemonade SDK(推奨)
事前ビルド済みバイナリをダウンロード: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
プラットフォームとGPUターゲットに一致するアーカイブをダウンロード: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
解凍して準備:
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
GPU検出を確認:
$ ./llama-cli --list-devices ggml_cuda_init: found 1 ROCm devices: Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32 Available devices: ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544 ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)
セットアップオプション2: 手動ソースビルド
Ubuntu 24.04.3にROCm 7.0.2をインストール:
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
記事では、追加のセットアップ手順と推論設定の詳細が続きます。
📖 完全なソースを読む: HN LLM Tools
👀 See Also

OpenCLAWメモリの実際の仕組み:エージェントの「忘却」問題を解決する
OpenCLAWエージェントは会話間で永続的なメモリを持ちません。毎回、SOUL.md、USER.md、MEMORY.mdなどのファイルからコンテキストを再構築します。一般的な「忘れる」問題は、古いセッション、構造化されていないメモリファイル、重要な情報をチャット履歴ではなく永続的なファイルに保存していないことから生じます。

Claude Code CLI経由でのOpenClaw Claudeアクセスの回避策
Anthropicが直接のサードパーティ連携をブロックした後、Claudeサブスクリプションへのアクセスを維持するために、OpenClawをClaude Code CLI経由でルーティングする方法です。このプロセスには、CLIのインストール、OAuthトークンの設定、およびOpenClawでACPプラグインを使用するための設定が含まれます。

永続的なOpenClawエージェントコンテキストのための3層メモリアーキテクチャ
開発者は、エージェントがコンテキストなしで各セッションを開始するのを防ぐために、OpenClawのインフラ上に3層のメモリシステムを構築しました。このアーキテクチャには、毎ターン注入されるL1ワークスペースファイル、L2セマンティックメモリ検索、およびオンデマンドで開かれるL3参照ドキュメントが含まれています。

Optimizing Qwen3.5-9B on RTX 3070 Mobile with ik_llama.cpp: Config Tweaks and Benchmarks
A developer shares optimization findings for running Qwen3.5-9B Q4_K_M on an RTX 3070 Mobile 8GB GPU using ik_llama.cpp, achieving ~50 tokens/second generation speed and significant prompt evaluation improvements through configuration adjustments.