Desenvolvedor de Homelab Testa 19 LLMs Locais com 45 Testes Práticos no AMD Strix Halo

✍️ OpenClawRadar📅 Publicado: April 14, 2026🔗 Source
Desenvolvedor de Homelab Testa 19 LLMs Locais com 45 Testes Práticos no AMD Strix Halo
Ad

Benchmark Prático para Casos de Uso Reais de LLMs

Um desenvolvedor com uma configuração de homelab realizou testes extensivos de LLMs locais usando uma suíte de benchmark personalizada de 45 testes, projetada em torno de casos de uso reais em vez de benchmarks acadêmicos genéricos. Os testes foram executados em um sistema AMD Strix Halo com Ryzen AI MAX+ 395, 128GB de RAM e 96GB de VRAM compartilhada usando Vulkan/RADV com llama-server (imagem Docker kyuz0).

Por que Benchmarks Personalizados Importam

O desenvolvedor usa Claude Opus para codificação interativa, mas precisa de modelos locais para serviços 24/7, incluindo:

  • Classificação de e-mails executada a cada 15 minutos para organizar mais de 50 e-mails
  • Notificações de câmera usando modelos de visão para descrever alertas de movimento
  • Planejamento de refeições com restrições alimentares
  • Análise financeira para cenários fiscais e projeções de portfólio
  • Geração e validação de automação do Home Assistant

Essas tarefas exigem modelos rápidos, confiáveis e com boas capacidades de saída estruturada, que benchmarks genéricos como pontuações MMLU não medem adequadamente.

A Suíte de 45 Testes

O benchmark inclui testes em 12 categorias, cada um pontuado de 0 a 10 pelo Claude Opus 4.6 contra rubricas específicas:

  • Codificação (4 testes): Docker Compose, serviços systemd, scripts Python, revisão de código
  • Operações de homelab (6 testes): Análise de memória, depuração de OOM, triagem de disco, depuração de rede, análise de logs
  • Chamada de ferramentas (5 testes): Comandos Proxmox pct/qm, cadeias SSH, operações Docker, fluxos de trabalho git
  • Planejamento de comida/refeições (6 testes): Planos de refeições JSON, cronogramas de preparo, dimensionamento de receitas, listas de compras, nutrição
  • Finanças (5 testes): Cálculos fiscais, análise de portfólio, projeções FIRE, colheita de perdas fiscais
  • Classificação de e-mails (3 testes): Atribuição de categoria, casos ambíguos, decisões de cancelamento de inscrição
  • Home Assistant (3 testes): Automação YAML, sensores de template, condições
  • Matemática (4 testes): Quitação de hipoteca, probabilidade, teoria dos números, otimização fiscal
  • Raciocínio (3 testes): Contas de energia, estatísticas, restrições lógicas
  • Seguimento de instruções (3 testes): Conformidade de formato, saída JSON, restrições negativas
  • Contexto longo (1 teste): Extração de fatos de documento de infraestrutura de 8K tokens
  • Velocidade (2 testes): Tempo para primeiro token, geração sustentada

Nove testes têm peso 2x como "críticos" para os casos de uso mais comuns do desenvolvedor, com uma pontuação máxima possível de 540.

Ad

Metodologia de Teste

Cada teste tem rubricas específicas definindo o que constitui uma boa resposta. Por exemplo, o teste de análise de memória requer identificar corretamente que a memória "disponível" (22G) é a métrica real livre, não a "livre" (5,7G), e que o uso de swap não é crítico. O teste de cálculo fiscal verifica AGI correta, renda tributável e matemática de faixas. Todas as respostas brutas e rubricas são salvas para verificação cruzada.

Modelos Testados

O desenvolvedor testou 19 configurações de modelos em 6 famílias no Vulkan com llama-server, incluindo:

  • Família Qwen: Qwen3.5-122B-A10B (10B ativo MoE) - usado anteriormente em produção, Qwen3-Coder-Next 80B-A3B (3B ativo)
  • Gemma 4 26B-A4B - acabou no topo após corrigir dois bugs separados que o faziam parecer quebrado inicialmente

O desenvolvedor observa que esta não é uma metodologia acadêmica rigorosa, mas testes práticos para determinar quais modelos funcionam melhor para tarefas específicas de homelab.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

VibecodedHub: Uma Plataforma de Descoberta Construída Integralmente com Claude Code
Use Cases

VibecodedHub: Uma Plataforma de Descoberta Construída Integralmente com Claude Code

Um desenvolvedor criou o VibecodedHub, uma plataforma de descoberta e lançamento para projetos construídos com IA, usando o Claude Code como engenheiro principal em várias sessões focadas. A plataforma inclui página inicial, autenticação, feed, submissões de projetos, integrações Stripe, painel administrativo, SEO e imagens OG.

OpenClawRadar
O desenvolvedor usa agentes de código Claude para resolver 635 problemas em 42 jogos de tabuleiro em uma única sessão
Use Cases

O desenvolvedor usa agentes de código Claude para resolver 635 problemas em 42 jogos de tabuleiro em uma única sessão

Um desenvolvedor solo usou agentes Claude Code para corrigir 635 problemas de UI/UX em 42 jogos de tabuleiro multiplayer em uma única sessão, resultando em 325 commits enquanto mantinha zero erros de compilação. O fluxo de trabalho envolveu executar quatro agentes simultaneamente, cada um lidando com um único problema de jogos diferentes para evitar conflitos de arquivos.

OpenClawRadar
Reconstruindo um Site com Claude Code, Strapi e GCP Cloud Run
Use Cases

Reconstruindo um Site com Claude Code, Strapi e GCP Cloud Run

Um desenvolvedor reconstruiu seu site Lovable usando Claude Code, Strapi como CMS headless e GCP Cloud Run para implantação. O projeto utilizou habilidades personalizadas para design, automação e pipelines de conteúdo, superando as limitações do sistema de créditos do Lovable.

OpenClawRadar
Usando Obsidian com OpenClaw como configuração de segundo cérebro
Use Cases

Usando Obsidian com OpenClaw como configuração de segundo cérebro

Um desenvolvedor compartilha sua configuração usando OpenClaw com Obsidian como um sistema de segundo cérebro, implementando QMD para busca eficiente de notas e carregamento de habilidades sob demanda, reduzindo o uso de tokens em 80-90%.

OpenClawRadar