Script e Fluxo de Trabalho de Fusão de Modelos GGUF para Variantes do Qwen3.5-35B

Um usuário do Reddit compartilhou um script Python e fluxo de trabalho para mesclar arquivos de modelo GGUF com perda mínima, especificamente direcionado a variantes do Qwen3.5-35B. A abordagem combina dois modelos existentes: Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive do HauhauCS e Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF do samuelcardillo.
Detalhes Técnicos
O modelo mesclado está disponível como uma versão quantizada Q4_0 em Hugging Face. De acordo com a fonte, o ajuste fino do samuelcardillo supera a versão do Jackrong para o Qwen 3.5 35B.
Fluxo de Trabalho de Mesclagem
O script Python (disponível no Pastebin) foi "vibecoded via Claude Opus 4.6" e oferece suporte a:
- Mesclagem de arquivos GGUF no Google Colab Free Tier
- Quantização via llama-quantize
- Quantização Q4_K_M para modelos 35B
- Quantização Q8 para modelos 8B
O autor observa que não pode criar versões quantizadas Q8_0 ou F16 devido a limitações de espaço em disco no Google Colab Free tier, mas sugere que outros possam ajustar o script via Claude Opus para essas quantizações.
Configurações Ótimas
Para melhor desempenho no LM Studio, use estes parâmetros:
Temperatura: 0.7
Amostragem Top K: 20
Penalidade de Presença: 1.5
Amostragem Top P: 0.8
Amostragem Min P: 0
Seed: 3407 ou 42
O prompt do sistema (versão completa no Pastebin) deve incluir esta primeira linha: "Você é Qwen, criado pela Alibaba Cloud. Você é um assistente útil." O autor observa que o modelo tem desempenho inferior sem esta linha.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Sistema de Memória MCP Local com Consolidação para Conversas de IA
Um desenvolvedor criou um servidor MCP que fornece memória local persistente para clientes de IA, usando Qwen 2.5-7B para consolidar conversas em documentos de conhecimento estruturados a cada 6 horas. O sistema roda completamente no seu hardware com deduplicação semântica, pontuação adaptativa e busca vetorial FAISS.

Desenvolvimento de IA Local com Qwen3.6-27B e Opencode em uma 5090
Um usuário do Reddit compartilha sua experiência ao migrar de ferramentas de IA de codificação na nuvem (Claude Code, Cursor) para uma configuração local usando Opencode + llama-server + Qwen3.6-27B com contexto de 128K em uma única RTX 5090, citando liberdade de limites de uso e riscos de conta.

Corrigindo o Inchaço de Contexto na Memória Automática do Claude Code com um Esquema de Nomenclatura e Script de Auditoria
Uma skill do Claude Code impõe um esquema de nomenclatura com 3 tipos, frontmatter obrigatório e um script de auditoria em bash para deduplicar arquivos de memória e reduzir a carga de contexto.

Google Lança Sashiko: Agente de Revisão de Código com IA para Patches do Kernel Linux
Engenheiros do Google disponibilizaram como código aberto o Sashiko, um sistema de revisão de código com IA agentiva projetado para o kernel Linux. Ele encontrou 53% dos bugs em um conjunto não filtrado de 1.000 problemas recentes do upstream que foram perdidos por revisores humanos.