Desarrollador de Homelab Evalúa 19 LLMs Locales con 45 Pruebas Prácticas en AMD Strix Halo

Pruebas de Referencia Prácticas para Casos de Uso Reales de LLM
Un desarrollador con una configuración de homelab realizó pruebas exhaustivas de LLMs locales utilizando un conjunto personalizado de 45 tests de referencia diseñado en torno a casos de uso reales en lugar de pruebas académicas genéricas. Los tests se ejecutaron en un sistema AMD Strix Halo con Ryzen AI MAX+ 395, 128GB de RAM y 96GB de VRAM compartida utilizando Vulkan/RADV con llama-server (imagen Docker de kyuz0).
Por Qué Importan las Pruebas de Referencia Personalizadas
El desarrollador utiliza Claude Opus para codificación interactiva, pero necesita modelos locales para servicios 24/7 que incluyen:
- Clasificación de correos electrónicos que se ejecuta cada 15 minutos para ordenar más de 50 correos
- Notificaciones de cámara que utilizan modelos de visión para describir alertas de movimiento
- Planificación de comidas con restricciones dietéticas
- Análisis financiero para escenarios fiscales y proyecciones de cartera
- Generación y validación de automatización de Home Assistant
Estas tareas requieren modelos rápidos, confiables y con buenas capacidades de salida estructurada que las pruebas genéricas como las puntuaciones MMLU no miden adecuadamente.
El Conjunto de 45 Tests
La prueba de referencia incluye tests en 12 categorías, cada uno puntuado de 0 a 10 por Claude Opus 4.6 según rúbricas específicas:
- Codificación (4 tests): Docker Compose, servicios systemd, scripts Python, revisión de código
- Operaciones de homelab (6 tests): Análisis de memoria, depuración de OOM, triaje de disco, depuración de red, análisis de registros
- Llamada a herramientas (5 tests): Comandos Proxmox pct/qm, cadenas SSH, operaciones Docker, flujos de trabajo git
- Planificación de alimentos/comidas (6 tests): Planes de comidas JSON, horarios de preparación, escalado de recetas, listas de compras, nutrición
- Finanzas (5 tests): Cálculos fiscales, análisis de cartera, proyecciones FIRE, aprovechamiento de pérdidas fiscales
- Clasificación de correos electrónicos (3 tests): Asignación de categorías, casos ambiguos, decisiones de cancelación de suscripción
- Home Assistant (3 tests): Automatización YAML, sensores de plantilla, condiciones
- Matemáticas (4 tests): Pago de hipoteca, probabilidad, teoría de números, optimización fiscal
- Razonamiento (3 tests): Facturas de energía, estadísticas, restricciones lógicas
- Seguimiento de instrucciones (3 tests): Cumplimiento de formato, salida JSON, restricciones negativas
- Contexto largo (1 test): Extracción de hechos de un documento de infraestructura de 8K tokens
- Velocidad (2 tests): Tiempo hasta el primer token, generación sostenida
Nueve tests tienen un peso doble (2x) como "críticos" para los casos de uso más comunes del desarrollador, con una puntuación máxima posible de 540.
Metodología de Pruebas
Cada test tiene rúbricas específicas que definen lo que constituye una buena respuesta. Por ejemplo, la prueba de análisis de memoria requiere identificar correctamente que la memoria "disponible" (22G) es la métrica real libre, no la "libre" (5.7G), y que el uso de swap no es crítico. La prueba de cálculo fiscal verifica el AGI correcto, los ingresos imponibles y las matemáticas de tramos. Todas las respuestas en bruto y las rúbricas se guardan para verificación cruzada.
Modelos Probados
El desarrollador probó 19 configuraciones de modelos en 6 familias en Vulkan con llama-server, incluyendo:
- Familia Qwen: Qwen3.5-122B-A10B (10B MoE activo) - utilizado previamente en producción, Qwen3-Coder-Next 80B-A3B (3B activo)
- Gemma 4 26B-A4B - terminó en primer lugar después de corregir dos errores separados que inicialmente hacían que pareciera defectuoso
El desarrollador señala que esto no es una metodología académica rigurosa, sino pruebas prácticas para determinar qué modelos funcionan mejor para tareas específicas de homelab.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Qwen3-VL-32B-Instruct sobresale en la calificación multimodal de tarjetas educativas.
Un desarrollador probó Qwen3-VL-32B-Instruct para calificar tarjetas Anki con imágenes ocultas y descubrió que superaba a modelos como Gemini 2.5 Flash, GPT 5 Nano/Mini, XAI 4.1 Fast, GLM y modelos Mistral, con solo ChatGPT 5.2 y Gemini 3/3.1/Claude 4+ acercándose.

Desarrollador Construye Motor de Simulación de Béisbol con IA Usando Claude Code en Dos Semanas
Un desarrollador utilizó Claude Code para construir un sistema completo de simulación de béisbol con 30 equipos de la MLB gestionados por IA, resúmenes de partidos, conferencias de prensa y podcasts de audio. El proyecto costó $50 en créditos de API e incluye un motor de simulación, una canalización de contenido, un bot de Discord y un sitio web.

UPSC StatsBuddy Bot: Interfaz de Telegram para Datos del Gobierno Indio mediante Claude AI
Un desarrollador creó un bot de Telegram llamado UPSC StatsBuddy que se conecta al servidor MCP del MoSPI de la India, utilizando Claude AI para transformar complejos conjuntos de datos gubernamentales en respuestas claras y citables para aspirantes al UPSC en menos de 30 horas.

Usando Claude con el Servidor MCP de TickTick para la Organización del Autoestudio
Un desarrollador utilizó Claude para crear un plan de estudios autodidacta a partir de la transcripción de un video de YouTube, luego lo conectó a TickTick mediante el repositorio de GitHub ticktick-mcp para generar automáticamente tareas del proyecto y una vista de calendario.