Script y Flujo de Trabajo para Fusión de Modelos GGUF de Variantes Qwen3.5-35B

Un usuario de Reddit ha compartido un script de Python y un flujo de trabajo para fusionar archivos de modelo GGUF con pérdida mínima, específicamente dirigido a variantes de Qwen3.5-35B. El enfoque combina dos modelos existentes: Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive de HauhauCS y Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF de samuelcardillo.
Detalles Técnicos
El modelo fusionado está disponible como versión cuantizada Q4_0 en Hugging Face. Según la fuente, el ajuste fino de samuelcardillo supera a la versión de Jackrong para Qwen 3.5 35B.
Flujo de Trabajo de Fusión
El script de Python (disponible en Pastebin) fue "vibecoded via Claude Opus 4.6" y soporta:
- Fusión de archivos GGUF en Google Colab Free Tier
- Cuantización mediante llama-quantize
- Cuantización Q4_K_M para modelos 35B
- Cuantización Q8 para modelos 8B
El autor señala que no puede crear versiones cuantizadas Q8_0 o F16 debido a limitaciones de espacio en disco en Google Colab Free tier, pero sugiere que otros pueden modificar el script mediante Claude Opus para esas cuantizaciones.
Configuraciones Óptimas
Para el mejor rendimiento en LM Studio, use estos parámetros:
Temperatura: 0.7
Muestreo Top K: 20
Penalización de Presencia: 1.5
Muestreo Top P: 0.8
Muestreo Min P: 0
Semilla: 3407 o 42
El prompt del sistema (versión completa en Pastebin) debe incluir esta primera línea: "Eres Qwen, creado por Alibaba Cloud. Eres un asistente útil." El autor señala que el modelo tiene un rendimiento inferior sin esta línea.
📖 Leer la fuente completa: r/LocalLLaMA
👀 Ver también

Operador de Kubernetes OpenClaw con Soporte Integrado de Ollama
Un miembro de la comunidad ha creado un operador OpenClaw para Kubernetes que incluye soporte integrado de Ollama, permitiendo que los agentes de IA se ejecuten con modelos locales en el mismo espacio de nombres. La configuración incluye comandos de instalación, detalles de configuración tanto para modelos Ollama locales como en la nube, e instrucciones de acceso al panel de control.

Flujo de trabajo de desarrollo guiado por especificaciones para Claude Code: Descomposición, limpieza de contexto y control de costos
Un enfoque de desarrollo guiado por especificaciones para Claude Code que utiliza descomposición bidimensional, limpieza de contexto entre pasos y especificaciones escritas en disco para mejorar el rendimiento del agente y reducir costos.

Anunciando Flyto Indexer: Refactorización de código AI mejorada con análisis de dependencias de origen.
Flyto Indexer, un servidor MCP, construye un gráfico de símbolos de tu base de código, ayudando a la IA en la refactorización inteligente del código al analizar dependencias y sitios de llamadas.

Forge: Convierte una Mac o una Máquina Linux en un Host de Desarrollo Siempre Activo para Agentes de IA de Programación
Forge es una herramienta de código abierto que instala un daemon para convertir cualquier máquina Mac o Linux en un host de desarrollo permanente y siempre activo. Mantiene los agentes de codificación de IA en funcionamiento cuando te alejas, proporciona un panel web para monitorear y utiliza Tailscale para acceso remoto seguro mediante SSH.