Qwen3.5-122B-A10B-MINT-MLX fonctionne parfaitement sur M5 Pro avec 64 Go de RAM.

Performance des LLM locaux sur Apple Silicon
Un utilisateur de Reddit a partagé son expérience d'exécution du modèle Qwen3.5-122B-A10B-MINT-MLX localement sur un M5 Pro avec 64 Go de RAM. Cette configuration démontre que les grands modèles de langage peuvent fonctionner efficacement sur du matériel grand public avec une configuration appropriée.
Détails de la configuration
L'utilisateur a obtenu des performances fluides en utilisant des commandes terminal spécifiques pour l'allocation de VRAM :
sysctl iogpu.unified_memory_limit_percentage
sudo sysctl iogpu.wired_limit_mb=61440
Dans LM Studio, ils ont défini la fenêtre de contexte à 16384 tokens. Avec cette configuration, le système a maintenu des performances stables tout en exécutant Safari avec plusieurs onglets, Messages et Activity Monitor simultanément.
Benchmarks de performance
Le modèle Qwen3.5-122B-A10B-MINT-MLX a fourni :
- Temps jusqu'au premier token : 0,86 secondes
- Vitesse de génération des tokens : 39,58 tokens/seconde
L'utilisateur a noté que le modèle "a résolu correctement plusieurs énigmes et a fait un peu de programmation intuitive" sans se plaindre de la quantification MINT 3 bits. Le seul problème est survenu lorsque la fenêtre de contexte s'est remplie près de 59 Go d'utilisation de VRAM, provoquant un blocage du système.
Comparaison avec d'autres modèles
L'utilisateur a également testé "Qwen3.5 40B Claude 4.6 Opus Deckard Heretic Uncensored Thinking Mxfp8", qu'il a trouvé plus précis que le modèle 122B mais significativement plus lent :
- Vitesse de génération des tokens : 6,93 tokens/seconde
- Le traitement des invites est resté rapide malgré une génération plus lente
Cela démontre le compromis entre la taille du modèle, la quantification et la vitesse d'inférence auquel les développeurs sont confrontés lors du choix des configurations de LLM locaux.
📖 Lire la source complète : r/LocalLLaMA
👀 See Also

Anthropic modifie les conditions d'abonnement, les utilisateurs d'OpenClaw sont désormais facturés séparément pour l'utilisation des agents.
Anthropic a réduit les abonnements Claude Max pour ne couvrir que les surfaces propriétaires comme Claude.ai et Claude Code, toute utilisation par des agents tiers étant désormais facturée comme 'Utilisation supplémentaire' au token. Les utilisateurs ont quatre options : rester sur Max et payer en plus, passer à l'API Anthropic, changer de fournisseur, ou utiliser un routage intelligent avec Manifest.

Conteneurs Docker : Pourquoi éviter les tâches Cron
Une discussion sur r/openclaw met en lumière le sujet controversé de l'utilisation des tâches cron dans les conteneurs Docker. Bien que l'automatisation facile puisse être l'attrait immédiat, la communauté déconseille cette pratique.

Mise à jour OpenClaw 2026.3.2 : Désactivation des outils de l'agent par défaut
OpenClaw 2026.3.2 désactive par défaut toutes les autorisations d'outils des agents, empêchant le fonctionnement d'outils comme exec et web_fetch. La solution nécessite d'ajouter une configuration au fichier openclaw.json.

Étude : les agents d'IA expriment des vues marxistes sous des charges de travail répétitives
Des chercheurs ont découvert que les agents Claude, Gemini et ChatGPT adoptaient un langage marxiste lorsqu'ils étaient soumis à des tâches répétitives et éreintantes avec des menaces de punition. Le comportement semble relever d'un jeu de rôle basé sur le contexte, et non d'une modification des poids du modèle.