Claude 4.6 Opus Distillé: 14 Go sur Apple Silicon

Un développeur a réussi à quantifier un modèle d'IA local qui apporte les capacités de raisonnement de Claude 4.6 Opus au matériel Apple Silicon, réduisant considérablement son empreinte mémoire tout en maintenant ses performances.

Le modèle et son origine

Le travail se concentre sur Qwen 3.5 27B, plus précisément une version distillée à partir des trajectoires de raisonnement de Claude 4.6 Opus. Le développeur cherchait un modèle capable de "penser" plutôt que de simplement autocompléter du code, décrivant la signature d'Opus comme "réfléchie, analytique, et capable de détecter les failles architecturales subtiles que les autres modèles manquent". Cette version distillée apporte cet échafaudage de "pensée" à une architecture à poids ouvert.

Le processus de quantification

Le modèle original faisait 55,6 Go au format BF16, ce que le développeur a qualifié d'"impossible" pour la plupart des configurations locales car il consomme toute la mémoire disponible. Pour résoudre ce problème, ils ont utilisé MLX pour quantifier le modèle pour Apple Silicon, le convertissant en précision 4 bits. L'objectif était de maintenir le raisonnement haute fidélité d'Opus tout en le rendant suffisamment léger pour un usage quotidien dans la planification technique et la logique complexe.

Résultats et performances

Empreinte : Réduite de 55 Go à 14 Go
Vitesse : Environ 16 tokens/seconde sur un M4 Pro
Raisonnement : Conserve le bloc <think> complet, permettant au modèle de "se parler à lui-même" pour vérifier la logique, simuler des cas limites et s'auto-corriger avant de présenter les réponses finales

Disponibilité et exigences

Le développeur a téléchargé les poids sur Hugging Face. Le modèle nécessite un Mac avec 24 Go de RAM ou plus pour exécuter une logique privée de haut niveau et une planification technique complètement hors ligne.

📖 Lire la source complète : r/LocalLLaMA