19 LLM Locaux Testés: AMD Strix Halo, 45 Benchmarks

Évaluation pratique pour des cas d'utilisation réels de LLM

Un développeur équipé d'un laboratoire domestique a réalisé des tests approfondis de LLM locaux en utilisant une suite personnalisée de 45 tests de référence conçue autour de cas d'utilisation réels plutôt que de tests académiques génériques. Les tests ont été exécutés sur un système AMD Strix Halo avec Ryzen AI MAX+ 395, 128 Go de RAM et 96 Go de VRAM partagée en utilisant Vulkan/RADV avec llama-server (image Docker kyuz0).

Pourquoi des tests de référence personnalisés sont importants

Le développeur utilise Claude Opus pour le codage interactif mais a besoin de modèles locaux pour des services 24h/24 et 7j/7, notamment :

La classification d'e-mails exécutée toutes les 15 minutes pour trier plus de 50 e-mails
Les notifications de caméra utilisant des modèles de vision pour décrire les alertes de mouvement
La planification de repas avec contraintes diététiques
L'analyse financière pour des scénarios fiscaux et des projections de portefeuille
La génération et validation d'automatisations Home Assistant

Ces tâches nécessitent des modèles rapides, fiables avec de bonnes capacités de sortie structurée que les tests génériques comme les scores MMLU ne mesurent pas adéquatement.

La suite de 45 tests

Le test de référence comprend des tests dans 12 catégories, chacun noté de 0 à 10 par Claude Opus 4.6 selon des grilles spécifiques :

Codage (4 tests) : Docker Compose, services systemd, scripts Python, revue de code
Opérations de laboratoire domestique (6 tests) : Analyse mémoire, débogage OOM, triage disque, débogage réseau, analyse de logs
Appel d'outils (5 tests) : Commandes Proxmox pct/qm, chaînes SSH, opérations Docker, workflows git
Alimentation/planification de repas (6 tests) : Plans de repas JSON, horaires de préparation, mise à l'échelle de recettes, listes de courses, nutrition
Finance (5 tests) : Calculs fiscaux, analyse de portefeuille, projections FIRE, récolte de pertes fiscales
Classification d'e-mails (3 tests) : Attribution de catégories, cas ambigus, décisions de désabonnement
Home Assistant (3 tests) : Automatisation YAML, capteurs modèles, conditions
Mathématiques (4 tests) : Remboursement hypothécaire, probabilités, théorie des nombres, optimisation fiscale
Raisonnement (3 tests) : Factures d'énergie, statistiques, contraintes logiques
Suivi d'instructions (3 tests) : Conformité du format, sortie JSON, contraintes négatives
Contexte long (1 test) : Extraction de faits d'un document d'infrastructure de 8 000 tokens
Vitesse (2 tests) : Temps jusqu'au premier token, génération soutenue

Neuf tests sont pondérés 2x comme "critiques" pour les cas d'utilisation les plus courants du développeur, avec un score maximum possible de 540.

Méthodologie de test

Chaque test a des grilles spécifiques définissant ce qui constitue une bonne réponse. Par exemple, le test d'analyse mémoire nécessite d'identifier correctement que la mémoire "disponible" (22 Go) est la métrique libre réelle, pas "libre" (5,7 Go), et que l'utilisation du swap n'est pas critique. Le test de calcul fiscal vérifie le revenu brut ajusté (AGI), le revenu imposable et les calculs de tranches. Toutes les réponses brutes et grilles sont sauvegardées pour vérification croisée.

Modèles testés

Le développeur a testé 19 configurations de modèles parmi 6 familles sur Vulkan avec llama-server, notamment :

Famille Qwen : Qwen3.5-122B-A10B (10B MoE actif) - précédemment utilisé en production, Qwen3-Coder-Next 80B-A3B (3B actif)
Gemma 4 26B-A4B - s'est finalement classé premier après correction de deux bugs distincts qui le faisaient apparaître cassé initialement

Le développeur note qu'il ne s'agit pas d'une méthodologie académique rigoureuse mais de tests pratiques pour déterminer quels modèles fonctionnent le mieux pour des tâches spécifiques de laboratoire domestique.

📖 Lire la source complète : r/LocalLLaMA

Développeur Homelab Évalue 19 LLM Locaux avec 45 Tests Pratiques sur AMD Strix Halo

Évaluation pratique pour des cas d'utilisation réels de LLM

Pourquoi des tests de référence personnalisés sont importants

La suite de 45 tests

Méthodologie de test

Modèles testés

👀 See Also

Audit de la bibliothèque React à 80 composants par Claude Code : des bugs réels découverts, un nouveau bug introduit

Non-développeur configure OpenClaw géré via MaxClaw sur la plateforme MiniMax Agent

Freelancer développe l'agent OpenClaw pour les tests d'applications visuelles et décroche 11 clients.

Non-codeur crée un jeu multijoueur sur Steam avec Claude AI — 60 000 lignes, 5 factions, 87 capacités