Développeur Homelab Évalue 19 LLM Locaux avec 45 Tests Pratiques sur AMD Strix Halo

Évaluation pratique pour des cas d'utilisation réels de LLM
Un développeur équipé d'un laboratoire domestique a réalisé des tests approfondis de LLM locaux en utilisant une suite personnalisée de 45 tests de référence conçue autour de cas d'utilisation réels plutôt que de tests académiques génériques. Les tests ont été exécutés sur un système AMD Strix Halo avec Ryzen AI MAX+ 395, 128 Go de RAM et 96 Go de VRAM partagée en utilisant Vulkan/RADV avec llama-server (image Docker kyuz0).
Pourquoi des tests de référence personnalisés sont importants
Le développeur utilise Claude Opus pour le codage interactif mais a besoin de modèles locaux pour des services 24h/24 et 7j/7, notamment :
- La classification d'e-mails exécutée toutes les 15 minutes pour trier plus de 50 e-mails
- Les notifications de caméra utilisant des modèles de vision pour décrire les alertes de mouvement
- La planification de repas avec contraintes diététiques
- L'analyse financière pour des scénarios fiscaux et des projections de portefeuille
- La génération et validation d'automatisations Home Assistant
Ces tâches nécessitent des modèles rapides, fiables avec de bonnes capacités de sortie structurée que les tests génériques comme les scores MMLU ne mesurent pas adéquatement.
La suite de 45 tests
Le test de référence comprend des tests dans 12 catégories, chacun noté de 0 à 10 par Claude Opus 4.6 selon des grilles spécifiques :
- Codage (4 tests) : Docker Compose, services systemd, scripts Python, revue de code
- Opérations de laboratoire domestique (6 tests) : Analyse mémoire, débogage OOM, triage disque, débogage réseau, analyse de logs
- Appel d'outils (5 tests) : Commandes Proxmox pct/qm, chaînes SSH, opérations Docker, workflows git
- Alimentation/planification de repas (6 tests) : Plans de repas JSON, horaires de préparation, mise à l'échelle de recettes, listes de courses, nutrition
- Finance (5 tests) : Calculs fiscaux, analyse de portefeuille, projections FIRE, récolte de pertes fiscales
- Classification d'e-mails (3 tests) : Attribution de catégories, cas ambigus, décisions de désabonnement
- Home Assistant (3 tests) : Automatisation YAML, capteurs modèles, conditions
- Mathématiques (4 tests) : Remboursement hypothécaire, probabilités, théorie des nombres, optimisation fiscale
- Raisonnement (3 tests) : Factures d'énergie, statistiques, contraintes logiques
- Suivi d'instructions (3 tests) : Conformité du format, sortie JSON, contraintes négatives
- Contexte long (1 test) : Extraction de faits d'un document d'infrastructure de 8 000 tokens
- Vitesse (2 tests) : Temps jusqu'au premier token, génération soutenue
Neuf tests sont pondérés 2x comme "critiques" pour les cas d'utilisation les plus courants du développeur, avec un score maximum possible de 540.
Méthodologie de test
Chaque test a des grilles spécifiques définissant ce qui constitue une bonne réponse. Par exemple, le test d'analyse mémoire nécessite d'identifier correctement que la mémoire "disponible" (22 Go) est la métrique libre réelle, pas "libre" (5,7 Go), et que l'utilisation du swap n'est pas critique. Le test de calcul fiscal vérifie le revenu brut ajusté (AGI), le revenu imposable et les calculs de tranches. Toutes les réponses brutes et grilles sont sauvegardées pour vérification croisée.
Modèles testés
Le développeur a testé 19 configurations de modèles parmi 6 familles sur Vulkan avec llama-server, notamment :
- Famille Qwen : Qwen3.5-122B-A10B (10B MoE actif) - précédemment utilisé en production, Qwen3-Coder-Next 80B-A3B (3B actif)
- Gemma 4 26B-A4B - s'est finalement classé premier après correction de deux bugs distincts qui le faisaient apparaître cassé initialement
Le développeur note qu'il ne s'agit pas d'une méthodologie académique rigoureuse mais de tests pratiques pour déterminer quels modèles fonctionnent le mieux pour des tâches spécifiques de laboratoire domestique.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Construire un Système de Recherche ML Autonome Productif avec Claude Code
Un développeur a créé un système où Claude Code agit comme un chercheur en apprentissage automatique autonome sur des données tabulaires, exécutant des expériences pendant la nuit avec une édition de fichiers contrainte et un sandbox Docker. Les principaux enseignements incluent le verrouillage des fichiers modifiables, la protection du débit des expériences avec des limites, et la mise en œuvre d'une mémoire persistante via une journalisation structurée.

Expérience d'OpenClaw pour un utilisateur non technique : les difficultés de configuration éclipsent les avantages de l'automatisation.
Un consultant indépendant non technique a testé OpenClaw pour automatiser des tâches répétitives, mais a rencontré des difficultés de configuration importantes qui ont éclipsé les avantages de l'automatisation de l'outil.

Des non-développeurs créent un jeu de chaîne de mots en un jour grâce à Claude AI.
Un utilisateur sans aucune expérience en programmation a créé un jeu de navigateur complet en une seule session en utilisant Claude AI. Le jeu de chaîne de mots comprend un dictionnaire de 74 000 mots, des effets sonores, des éléments de design et une mascotte.

Créer une application de production de 200k lignes de code via le Vibe Coding depuis un téléphone
Un développeur a créé Vibe Remote, un outil mobile de « vibe coding » avec environ 200 000 lignes de code (140k en Go, 60k en Swift), principalement en envoyant des messages à Claude Code via l'application depuis son téléphone. Le projet a révélé des défis majeurs comme des violations du principe DRY et des goulots d'étranglement dans les tests de bout en bout.