19 LLMs Testados: AMD Strix Halo vs Gemma 4 26B-A4B em 45 Testes

Benchmark Prático para Casos de Uso Reais de LLMs

Um desenvolvedor com uma configuração de homelab realizou testes extensivos de LLMs locais usando uma suíte de benchmark personalizada de 45 testes, projetada em torno de casos de uso reais em vez de benchmarks acadêmicos genéricos. Os testes foram executados em um sistema AMD Strix Halo com Ryzen AI MAX+ 395, 128GB de RAM e 96GB de VRAM compartilhada usando Vulkan/RADV com llama-server (imagem Docker kyuz0).

Por que Benchmarks Personalizados Importam

O desenvolvedor usa Claude Opus para codificação interativa, mas precisa de modelos locais para serviços 24/7, incluindo:

Classificação de e-mails executada a cada 15 minutos para organizar mais de 50 e-mails
Notificações de câmera usando modelos de visão para descrever alertas de movimento
Planejamento de refeições com restrições alimentares
Análise financeira para cenários fiscais e projeções de portfólio
Geração e validação de automação do Home Assistant

Essas tarefas exigem modelos rápidos, confiáveis e com boas capacidades de saída estruturada, que benchmarks genéricos como pontuações MMLU não medem adequadamente.

A Suíte de 45 Testes

O benchmark inclui testes em 12 categorias, cada um pontuado de 0 a 10 pelo Claude Opus 4.6 contra rubricas específicas:

Codificação (4 testes): Docker Compose, serviços systemd, scripts Python, revisão de código
Operações de homelab (6 testes): Análise de memória, depuração de OOM, triagem de disco, depuração de rede, análise de logs
Chamada de ferramentas (5 testes): Comandos Proxmox pct/qm, cadeias SSH, operações Docker, fluxos de trabalho git
Planejamento de comida/refeições (6 testes): Planos de refeições JSON, cronogramas de preparo, dimensionamento de receitas, listas de compras, nutrição
Finanças (5 testes): Cálculos fiscais, análise de portfólio, projeções FIRE, colheita de perdas fiscais
Classificação de e-mails (3 testes): Atribuição de categoria, casos ambíguos, decisões de cancelamento de inscrição
Home Assistant (3 testes): Automação YAML, sensores de template, condições
Matemática (4 testes): Quitação de hipoteca, probabilidade, teoria dos números, otimização fiscal
Raciocínio (3 testes): Contas de energia, estatísticas, restrições lógicas
Seguimento de instruções (3 testes): Conformidade de formato, saída JSON, restrições negativas
Contexto longo (1 teste): Extração de fatos de documento de infraestrutura de 8K tokens
Velocidade (2 testes): Tempo para primeiro token, geração sustentada

Nove testes têm peso 2x como "críticos" para os casos de uso mais comuns do desenvolvedor, com uma pontuação máxima possível de 540.

Metodologia de Teste

Cada teste tem rubricas específicas definindo o que constitui uma boa resposta. Por exemplo, o teste de análise de memória requer identificar corretamente que a memória "disponível" (22G) é a métrica real livre, não a "livre" (5,7G), e que o uso de swap não é crítico. O teste de cálculo fiscal verifica AGI correta, renda tributável e matemática de faixas. Todas as respostas brutas e rubricas são salvas para verificação cruzada.

Modelos Testados

O desenvolvedor testou 19 configurações de modelos em 6 famílias no Vulkan com llama-server, incluindo:

Família Qwen: Qwen3.5-122B-A10B (10B ativo MoE) - usado anteriormente em produção, Qwen3-Coder-Next 80B-A3B (3B ativo)
Gemma 4 26B-A4B - acabou no topo após corrigir dois bugs separados que o faziam parecer quebrado inicialmente

O desenvolvedor observa que esta não é uma metodologia acadêmica rigorosa, mas testes práticos para determinar quais modelos funcionam melhor para tarefas específicas de homelab.

📖 Leia a fonte completa: r/LocalLLaMA