Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+

Executando um LLM de 1 Trilhão de Parâmetros Localmente em um Cluster AMD Ryzen AI Max+
O artigo técnico da AMD detalha como construir um cluster de inferência distribuída em pequena escala usando quatro sistemas Framework Desktop com processadores Ryzen AI Max+ 395 e executar o modelo de código aberto Kimi K2.5 (1 trilhão de parâmetros, 375GB) usando llama.cpp RPC. A configuração trata as quatro máquinas como um único acelerador de IA lógico.
Pilha de Hardware e Software
- Hardware: 4x Framework Desktop - AMD Ryzen AI Max+ 395 - 128GB
- Framework de IA: AMD ROCm
- Motor de Inferência: Llama.cpp RPC
- Sistema Operacional: Ubuntu 24.04.3 LTS
- Modelo: Kimi-K2.5 (UD_Q2_K_XL) (375GB)
- Rede: 5Gbps via Ethernet
Configuração Técnica: Alocação Estendida de VRAM
Para cada sistema Ryzen AI Max+, o BIOS deve primeiro definir o Tamanho da Memória iGPU para 512MB. A VRAM dedicada máxima por nó via BIOS é de 96GB (384GB no total em quatro nós). Usando parâmetros do kernel Translation Table Manager (TTM), isso aumenta para 120GB por nó (480GB no total).
Configure os parâmetros do kernel:
sudo nano /etc/default/grub
Encontre a linha que começa com GRUB_CMDLINE_LINUX_DEFAULT= e adicione dentro das aspas:
"quiet splash ttm.pages_limit=30720000 amdgpu.gttsize=120000"
Os limites do TTM são expressos em páginas de 4 KB. Cálculo para 120GB: (120 * 1024 * 1024) / 4.096 = 30720000
Após salvar e sair, execute:
sudo update-grub sudo reboot
Verifique a configuração:
$ sudo dmesg | grep "amdgpu.*memory" [drm] amdgpu: 512M of VRAM memory ready [drm] amdgpu: 120000M of GTT memory ready.
Opção de Configuração 1: Lemonade SDK (Recomendado)
Baixe os binários pré-construídos em: https://github.com/lemonade-sdk/llamacpp-rocm/releases/latest/
Baixe o arquivo correspondente à sua plataforma e alvo de GPU: llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip
Extraia e prepare:
unzip llama-bxxxx-ubuntu-rocm-gfx1151-x64.zip cd llama-bxxxx-ubuntu-rocm-gfx1151-x64 chmod +x llama-cli llama-server rpc-server
Verifique a detecção da GPU:
$ ./llama-cli --list-devices ggml_cuda_init: found 1 ROCm devices: Device 0: AMD Radeon Graphics, gfx1151 (0x1151), VMM: no, Wave Size: 32 Available devices: ggml_backend_cuda_get_available_uma_memory: final available_memory_kb: 127697544 ROCm0: AMD Radeon Graphics (120000 MiB, 124704 MiB free)
Opção de Configuração 2: Compilação Manual do Código-Fonte
Instale o ROCm 7.0.2 no Ubuntu 24.04.3:
wget https://repo.radeon.com/amdgpu-install/7.0.2/ubuntu/noble/amdgpu-install_7.0.2.70002-1_all.deb sudo apt install ./amdgpu-install_7.0.2.70002-1_all.deb sudo apt update sudo apt install python3-setuptools python3-wheel sudo usermod -a -G render,
O artigo continua com etapas adicionais de configuração e detalhes de configuração de inferência.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

Configurando Servidores MCP no Web UI do llama-server: Um Guia Prático
Um usuário do Reddit compartilha etapas específicas para configurar servidores MCP na interface web do llama-server, incluindo instalação do uv, criação de um arquivo config.json com definições de servidores, execução do mcp-proxy e modificação de URLs para integração adequada.

Regras de Vibe Coding: Crie Projetos Paralelos pelo Celular Usando Claude Code Sem Ler Código
Um engenheiro sênior compartilha suas regras para construir projetos paralelos inteiramente pelo celular usando Claude Code sem ler código: começar no modo plano, commit no git, escrever testes, usar subagentes para revisões e modo automático.

OpenClaw Mega Cheat Sheet: Seu Portal para o Domínio da Programação em IA
Mergulhe na Mega Folha de Dicas do OpenClaw do r/openclaw—um guia abrangente repleto de dicas essenciais para entusiastas de programação de IA e automação.

Como Otimizar Sua Configuração do OpenClaw com Instruções Específicas e Refinamentos
A otimização do OpenClaw depende de instruções precisas e do refinamento contínuo das personalidades dos agentes, além da utilização eficiente de modelos em termos de custo.