Script et Processus de Fusion de Modèles GGUF pour les Variantes Qwen3.5-35B

Un utilisateur de Reddit a partagé un script Python et une méthode de travail pour fusionner des fichiers de modèles GGUF avec une perte minimale, ciblant spécifiquement les variantes Qwen3.5-35B. L'approche combine deux modèles existants : Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive de HauhauCS et Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF de samuelcardillo.
Détails techniques
Le modèle fusionné est disponible en version quantifiée Q4_0 sur Hugging Face. Selon la source, le modèle affiné de samuelcardillo surpasse la version de Jackrong pour Qwen 3.5 35B.
Processus de fusion
Le script Python (disponible sur Pastebin) a été "vibecodé via Claude Opus 4.6" et prend en charge :
- La fusion de fichiers GGUF sur Google Colab Free Tier
- La quantification via llama-quantize
- La quantification Q4_K_M pour les modèles 35B
- La quantification Q8 pour les modèles 8B
L'auteur note qu'il ne peut pas créer de versions quantifiées Q8_0 ou F16 en raison des limitations d'espace disque sur Google Colab Free tier, mais suggère que d'autres peuvent modifier le script via Claude Opus pour ces quantifications.
Paramètres optimaux
Pour de meilleures performances dans LM Studio, utilisez ces paramètres :
Température : 0.7
Échantillonnage Top K : 20
Pénalité de présence : 1.5
Échantillonnage Top P : 0.8
Échantillonnage Min P : 0
Graine : 3407 ou 42
L'invite système (version complète sur Pastebin) doit inclure cette première ligne : "Vous êtes Qwen, créé par Alibaba Cloud. Vous êtes un assistant utile." L'auteur note que le modèle est moins performant sans cette ligne.
📖 Source : r/LocalLLaMA
👀 See Also

Plugin GTM Open Source pour Claude Code avec 166 Compétences Marketing et Commande Bootstrap
Un développeur a publié un plugin open source Go-To-Market pour Claude Code qui offre 166 compétences marketing spécialisées dans les domaines du SEO, du contenu, de l'outbound, des ventes, de la croissance, de l'analytique, de la stratégie, des publicités, des réseaux sociaux, du CRM et de la recherche IA. Le plugin inclut une commande /bootstrap qui interroge les utilisateurs sur leur marque pour générer des fichiers de contexte personnalisés.

SpecLock : Serveur MCP pour l'application de contraintes de codage IA
SpecLock est un serveur MCP open source qui mémorise les contraintes du projet entre les sessions et empêche les agents d'IA de codage de les violer. Claude l'a testé indépendamment avec 100 tests adversariaux, obtenant un score de 100/100 avec zéro faux positif et 15,7 ms par vérification.

Machine Virtuelle Logique : Un Système Basé sur des Invites pour Stopper les Effondrements de Raisonnement des LLM
Un chercheur a développé un prompt de Machine Virtuelle Logique (LVM) qui force les LLM à s'arrêter et à signaler des modes d'effondrement spécifiques lorsqu'ils rencontrent des paradoxes ou des dérives de raisonnement, basé sur une seule loi de stabilité : K(σ) ⇒ K(β(σ)). Le prompt est indépendant du substrat et fonctionne sur des modèles comme Grok et Claude.

Maestro v1.5.0 ajoute la prise en charge de Claude Code pour l'orchestration multi-agent.
Maestro v1.5.0, une plateforme d'orchestration multi-agents open source, fonctionne désormais comme un plugin natif sur Claude Code en plus de Gemini CLI. La mise à jour comprend une planification de conception plus approfondie, une colonne vertébrale d'orchestration en 42 étapes, l'application des capacités des agents et un renforcement de la sécurité.