Fusion de Modèles GGUF pour Qwen3.5-35B : Script Python

Un utilisateur de Reddit a partagé un script Python et une méthode de travail pour fusionner des fichiers de modèles GGUF avec une perte minimale, ciblant spécifiquement les variantes Qwen3.5-35B. L'approche combine deux modèles existants : Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive de HauhauCS et Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF de samuelcardillo.

Détails techniques

Le modèle fusionné est disponible en version quantifiée Q4_0 sur Hugging Face. Selon la source, le modèle affiné de samuelcardillo surpasse la version de Jackrong pour Qwen 3.5 35B.

Processus de fusion

Le script Python (disponible sur Pastebin) a été "vibecodé via Claude Opus 4.6" et prend en charge :

La fusion de fichiers GGUF sur Google Colab Free Tier
La quantification via llama-quantize
La quantification Q4_K_M pour les modèles 35B
La quantification Q8 pour les modèles 8B

L'auteur note qu'il ne peut pas créer de versions quantifiées Q8_0 ou F16 en raison des limitations d'espace disque sur Google Colab Free tier, mais suggère que d'autres peuvent modifier le script via Claude Opus pour ces quantifications.

Paramètres optimaux

Pour de meilleures performances dans LM Studio, utilisez ces paramètres :

Température : 0.7
Échantillonnage Top K : 20
Pénalité de présence : 1.5
Échantillonnage Top P : 0.8
Échantillonnage Min P : 0
Graine : 3407 ou 42

L'invite système (version complète sur Pastebin) doit inclure cette première ligne : "Vous êtes Qwen, créé par Alibaba Cloud. Vous êtes un assistant utile." L'auteur note que le modèle est moins performant sans cette ligne.

📖 Source : r/LocalLLaMA

Script et Processus de Fusion de Modèles GGUF pour les Variantes Qwen3.5-35B

Détails techniques

Processus de fusion

Paramètres optimaux

👀 See Also

Système d'Étude à Contexte Ingénieurisé pour Claude Code Agissant en Tuteur Persistant

Le moteur d'inférence Atlas devient open source : Rust pur + CUDA, plus de 100 tok/s sur DGX Spark

YourMemory : La mémoire IA à dégradation biologique atteint 59% de rappel sur LoCoMo-10

Corbell : CLI Open Source pour l'Analyse d'Architecture et la Documentation de Conception Multi-Dépôts