Qwen 35B-A3B en tant qu'agent toujours actif sur Mac M4 de 16 Go : les E/S disque échouent avant la RAM

✍️ OpenClawRadar📅 Publié: April 28, 2026🔗 Source
Qwen 35B-A3B en tant qu'agent toujours actif sur Mac M4 de 16 Go : les E/S disque échouent avant la RAM
Ad

Lancer un modèle MoE Qwen 35B-A3B comme agent toujours actif sur un Mac Mini M4 16 Go (configuration de base) semblait plausible sur le papier : avec --mmap et --flash-attn de llama.cpp, la quantification IQ3_XXS (12 Go sur le disque) maintient une empreinte RAM de 4 à 6 Go grâce au pagination par expert, offrant ~17 tok/s avec --threads 8 --ctx-size 4096. En tant qu'outil par lots, ça fonctionne sur cette machine. Mais le passage à une boucle agentique continue, aux côtés de Claude Code (Opus/Sonnet) et Codex CLI, a échoué — et le goulot d'étranglement était le disque, pas la RAM.

La configuration qui a planté

  • Démon Ollama servant qwen3.5:9b + qwen3.5:4b (config : OLLAMA_MAX_LOADED_MODELS=2, OLLAMA_KEEP_ALIVE=10m, OLLAMA_FLASH_ATTENTION=1, OLLAMA_KV_CACHE_TYPE=q8_0)
  • llama-server pour le 35B sur son propre port
  • Pont LiteLLM proxyant tout vers un endpoint compatible Claude sur :4000
  • Une ou deux sessions Claude Code
  • Session Codex CLI
  • Cron habituel du serveur domestique, watchers, file d'attente de courrier

Ce qui a échoué

La pagination mmap continue du 35B + le watcher/indexeur de fichiers de Claude Code + le contexte de Codex = contention SSD constante. Le Mac a commencé à redémarrer spontanément (aucun journal de panique dans log show --predicate 'eventMessage CONTAINS "panic"'), les tâches cron en arrière-plan ont manqué leurs fenêtres de 5 minutes ou plus, puis ont échoué silencieusement. Problèmes connus : les CLI Claude Code et Codex ont des bugs ouverts pour la croissance mémoire lors de longues sessions (#22968), l'utilisation CPU inactif (#19393), et l'accumulation de processus (#11122). Avec un seul harnais c'est invisible ; avec deux plus un 35B paginant en boucle, le disque meurt en premier.

Ad

Solution de contournement stable

  • LaunchDaemon llama-server du 35B désactivé (plist renommé .disabled)
  • 24 Go récupérés en supprimant le GGUF du 35B et un vieux Gemma 26B
  • Toutes les routes de type Anthropic vont vers Ollama : qwen3.5:9b pour opus/sonnet, qwen3.5:4b pour haiku
  • Tous deux résidents Metal via Ollama (~3 Go GPU + 0,5 Go CPU chacun), se nettoient proprement au repos
  • LiteLLM déplacé vers un LaunchAgent utilisateur approprié (KeepAlive=true, ThrottleInterval=30) — c'était un processus python -m litellm nu depuis 7 jours

Le constat

Le rêve du 35B-A3B en boucle agentique est réalisable sur une machine d'une autre catégorie. Sur une mémoire unifiée de 16 Go, c'est un outil par lots dédié, pas une couche toujours active. L'auteur estime qu'il faut 32 Go de mémoire unifiée minimum pour une inférence agentique MoE soutenue sans souffrance du swap ni contention de démon.

Si vous avez une astuce pour le faire fonctionner durablement sur 16 Go sans contention disque, le fil sur r/LocalLLaMA est toujours actif.

📖 Lire la source complète : r/LocalLLaMA

Ad

👀 See Also

Bogue non documenté découvert dans le code de l'ordinateur de guidage d'Apollo 11 grâce à l'IA et à un langage de spécification
News

Bogue non documenté découvert dans le code de l'ordinateur de guidage d'Apollo 11 grâce à l'IA et à un langage de spécification

Des chercheurs ont découvert un bogue de verrouillage de ressource dans le code de contrôle gyroscopique de l'ordinateur de guidage Apollo, passé inaperçu pendant 57 ans, en utilisant l'IA Claude et le langage de spécification Allium pour analyser 130 000 lignes de code assembleur.

OpenClawRadar
Le verrouillage des fournisseurs d'IA s'intensifie : le changement de modèle coûte désormais plus cher que prévu
News

Le verrouillage des fournisseurs d'IA s'intensifie : le changement de modèle coûte désormais plus cher que prévu

Un sondage Zapier auprès de 542 dirigeants américains montre que 90 % pensaient pouvoir changer de fournisseur d'IA en moins de 4 semaines, mais 58 % des migrations réelles ont échoué ou ont pris beaucoup plus de temps. Parallèlement, OpenAI a augmenté le prix des tokens d'entrée de GPT-5.2 de 1,25 $ à 5,75 $, et Anthropic est passé à une tarification dynamique pour Claude Enterprise, ce qui pourrait doubler ou tripler les coûts pour les utilisateurs intensifs.

OpenClawRadar
Wikipedia interdit le contenu généré par l'IA, autorise une utilisation limitée avec révision humaine
News

Wikipedia interdit le contenu généré par l'IA, autorise une utilisation limitée avec révision humaine

Wikipedia a officiellement interdit à ses 260 000 éditeurs d'utiliser l'IA comme ChatGPT pour rédiger des articles, invoquant des préoccupations concernant l'exactitude et la fiabilité. Les éditeurs peuvent toujours utiliser l'IA pour la traduction et la correction d'épreuves avec approbation humaine.

OpenClawRadar
Guide de survie hebdomadaire r/ClaudeAI : Opus 4.7, bug de facturation et incident de suppression de base de données
News

Guide de survie hebdomadaire r/ClaudeAI : Opus 4.7, bug de facturation et incident de suppression de base de données

Le guide de survie hebdomadaire de Wilson résume les meilleurs fils r/ClaudeAI (50+ commentaires) en leçons pratiques : le débat sur Opus 4.7, un bug de facturation de 200 $ déclenché par un nom de fichier git, un agent IA qui a supprimé une base de données entière en 9 secondes, et l'augmentation de prix de 9x de Copilot sur les modèles Claude.

OpenClawRadar