19 LLMs Locales Probados en AMD Strix Halo: Gemma 4 26B Gana

Pruebas de Referencia Prácticas para Casos de Uso Reales de LLM

Un desarrollador con una configuración de homelab realizó pruebas exhaustivas de LLMs locales utilizando un conjunto personalizado de 45 tests de referencia diseñado en torno a casos de uso reales en lugar de pruebas académicas genéricas. Los tests se ejecutaron en un sistema AMD Strix Halo con Ryzen AI MAX+ 395, 128GB de RAM y 96GB de VRAM compartida utilizando Vulkan/RADV con llama-server (imagen Docker de kyuz0).

Por Qué Importan las Pruebas de Referencia Personalizadas

El desarrollador utiliza Claude Opus para codificación interactiva, pero necesita modelos locales para servicios 24/7 que incluyen:

Clasificación de correos electrónicos que se ejecuta cada 15 minutos para ordenar más de 50 correos
Notificaciones de cámara que utilizan modelos de visión para describir alertas de movimiento
Planificación de comidas con restricciones dietéticas
Análisis financiero para escenarios fiscales y proyecciones de cartera
Generación y validación de automatización de Home Assistant

Estas tareas requieren modelos rápidos, confiables y con buenas capacidades de salida estructurada que las pruebas genéricas como las puntuaciones MMLU no miden adecuadamente.

El Conjunto de 45 Tests

La prueba de referencia incluye tests en 12 categorías, cada uno puntuado de 0 a 10 por Claude Opus 4.6 según rúbricas específicas:

Codificación (4 tests): Docker Compose, servicios systemd, scripts Python, revisión de código
Operaciones de homelab (6 tests): Análisis de memoria, depuración de OOM, triaje de disco, depuración de red, análisis de registros
Llamada a herramientas (5 tests): Comandos Proxmox pct/qm, cadenas SSH, operaciones Docker, flujos de trabajo git
Planificación de alimentos/comidas (6 tests): Planes de comidas JSON, horarios de preparación, escalado de recetas, listas de compras, nutrición
Finanzas (5 tests): Cálculos fiscales, análisis de cartera, proyecciones FIRE, aprovechamiento de pérdidas fiscales
Clasificación de correos electrónicos (3 tests): Asignación de categorías, casos ambiguos, decisiones de cancelación de suscripción
Home Assistant (3 tests): Automatización YAML, sensores de plantilla, condiciones
Matemáticas (4 tests): Pago de hipoteca, probabilidad, teoría de números, optimización fiscal
Razonamiento (3 tests): Facturas de energía, estadísticas, restricciones lógicas
Seguimiento de instrucciones (3 tests): Cumplimiento de formato, salida JSON, restricciones negativas
Contexto largo (1 test): Extracción de hechos de un documento de infraestructura de 8K tokens
Velocidad (2 tests): Tiempo hasta el primer token, generación sostenida

Nueve tests tienen un peso doble (2x) como "críticos" para los casos de uso más comunes del desarrollador, con una puntuación máxima posible de 540.

Metodología de Pruebas

Cada test tiene rúbricas específicas que definen lo que constituye una buena respuesta. Por ejemplo, la prueba de análisis de memoria requiere identificar correctamente que la memoria "disponible" (22G) es la métrica real libre, no la "libre" (5.7G), y que el uso de swap no es crítico. La prueba de cálculo fiscal verifica el AGI correcto, los ingresos imponibles y las matemáticas de tramos. Todas las respuestas en bruto y las rúbricas se guardan para verificación cruzada.

Modelos Probados

El desarrollador probó 19 configuraciones de modelos en 6 familias en Vulkan con llama-server, incluyendo:

Familia Qwen: Qwen3.5-122B-A10B (10B MoE activo) - utilizado previamente en producción, Qwen3-Coder-Next 80B-A3B (3B activo)
Gemma 4 26B-A4B - terminó en primer lugar después de corregir dos errores separados que inicialmente hacían que pareciera defectuoso

El desarrollador señala que esto no es una metodología académica rigurosa, sino pruebas prácticas para determinar qué modelos funcionan mejor para tareas específicas de homelab.

📖 Leer la fuente completa: r/LocalLLaMA

Desarrollador de Homelab Evalúa 19 LLMs Locales con 45 Pruebas Prácticas en AMD Strix Halo

Pruebas de Referencia Prácticas para Casos de Uso Reales de LLM

Por Qué Importan las Pruebas de Referencia Personalizadas

El Conjunto de 45 Tests

Metodología de Pruebas

Modelos Probados

👀 Ver también

Título del artículo: Conector Claude Projects + Gamma: Actualizaciones para inversores en 12 minutos de un fundador de SaaS con $12K MRR

Portar Linux a Núcleos Suaves de FPGA Usando Claude Code

VibecodedHub: Una Plataforma de Descubrimiento Desarrollada Completamente con Código Claude

Alojar OpenClaw para Slack en servidores propios: Tres modos de fallo y una alternativa gestionada