Qwen3.5-122B-A10B-MINT-MLX : Test sur M5 Pro 64 Go RAM

Performance des LLM locaux sur Apple Silicon

Un utilisateur de Reddit a partagé son expérience d'exécution du modèle Qwen3.5-122B-A10B-MINT-MLX localement sur un M5 Pro avec 64 Go de RAM. Cette configuration démontre que les grands modèles de langage peuvent fonctionner efficacement sur du matériel grand public avec une configuration appropriée.

Détails de la configuration

L'utilisateur a obtenu des performances fluides en utilisant des commandes terminal spécifiques pour l'allocation de VRAM :

sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440

Dans LM Studio, ils ont défini la fenêtre de contexte à 16384 tokens. Avec cette configuration, le système a maintenu des performances stables tout en exécutant Safari avec plusieurs onglets, Messages et Activity Monitor simultanément.

Benchmarks de performance

Le modèle Qwen3.5-122B-A10B-MINT-MLX a fourni :

Temps jusqu'au premier token : 0,86 secondes
Vitesse de génération des tokens : 39,58 tokens/seconde

L'utilisateur a noté que le modèle "a résolu correctement plusieurs énigmes et a fait un peu de programmation intuitive" sans se plaindre de la quantification MINT 3 bits. Le seul problème est survenu lorsque la fenêtre de contexte s'est remplie près de 59 Go d'utilisation de VRAM, provoquant un blocage du système.

Comparaison avec d'autres modèles

L'utilisateur a également testé "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8", qu'il a trouvé plus précis que le modèle 122B mais significativement plus lent :

Vitesse de génération des tokens : 6,93 tokens/seconde
Le traitement des invites est resté rapide malgré une génération plus lente

Cela démontre le compromis entre la taille du modèle, la quantification et la vitesse d'inférence auquel les développeurs sont confrontés lors du choix des configurations de LLM locaux.

📖 Lire la source complète : r/LocalLLaMA

Qwen3.5-122B-A10B-MINT-MLX fonctionne parfaitement sur M5 Pro avec 64 Go de RAM.

Performance des LLM locaux sur Apple Silicon

Détails de la configuration

Benchmarks de performance

Comparaison avec d'autres modèles

👀 See Also

Mise à jour du statut de Claude : Taux d'erreur élevés pour Opus 4.6 et Sonnet 4.6

Google AI Overview qualifie à tort un violoneux canadien de délinquant sexuel, une plainte déposée

Utilisateur de Reddit propose une fonction d'horodatage pour Claude afin de combattre son manque de conscience temporelle.

Diagnostiquer la dérive opérationnelle et l'amnésie des tâches dans OpenClaw avec Gemini 2.5 Flash sur Proxmox