Script Python para Fusão de Modelos GGUF no Qwen3.5-35B

Um usuário do Reddit compartilhou um script Python e fluxo de trabalho para mesclar arquivos de modelo GGUF com perda mínima, especificamente direcionado a variantes do Qwen3.5-35B. A abordagem combina dois modelos existentes: Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive do HauhauCS e Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF do samuelcardillo.

Detalhes Técnicos

O modelo mesclado está disponível como uma versão quantizada Q4_0 em Hugging Face. De acordo com a fonte, o ajuste fino do samuelcardillo supera a versão do Jackrong para o Qwen 3.5 35B.

Fluxo de Trabalho de Mesclagem

O script Python (disponível no Pastebin) foi "vibecoded via Claude Opus 4.6" e oferece suporte a:

Mesclagem de arquivos GGUF no Google Colab Free Tier
Quantização via llama-quantize
Quantização Q4_K_M para modelos 35B
Quantização Q8 para modelos 8B

O autor observa que não pode criar versões quantizadas Q8_0 ou F16 devido a limitações de espaço em disco no Google Colab Free tier, mas sugere que outros possam ajustar o script via Claude Opus para essas quantizações.

Configurações Ótimas

Para melhor desempenho no LM Studio, use estes parâmetros:

Temperatura: 0.7
Amostragem Top K: 20
Penalidade de Presença: 1.5
Amostragem Top P: 0.8
Amostragem Min P: 0
Seed: 3407 ou 42

O prompt do sistema (versão completa no Pastebin) deve incluir esta primeira linha: "Você é Qwen, criado pela Alibaba Cloud. Você é um assistente útil." O autor observa que o modelo tem desempenho inferior sem esta linha.

📖 Leia a fonte completa: r/LocalLLaMA

Script e Fluxo de Trabalho de Fusão de Modelos GGUF para Variantes do Qwen3.5-35B

Detalhes Técnicos

Fluxo de Trabalho de Mesclagem

Configurações Ótimas

👀 See Also

Elementos Agentes: Um Dashboard macOS para Instalações Claude Code & Codex

Auto-co: Um Script Bash de 50 Linhas Que Transforma Código do Claude em Empresas de IA Autônomas

GPT-5.5 Codex vs Claude Opus 4.7: Benchmarks de agentes de codificação no mundo real

Revdiff: Visualizador de Diferenciais no Terminal com Anotações Embutidas para Agentes de IA