Script y Flujo de Trabajo para Fusión de Modelos GGUF de Variantes Qwen3.5-35B

✍️ OpenClawRadar📅 Publicado: 1 de abril de 2026🔗 Source
Script y Flujo de Trabajo para Fusión de Modelos GGUF de Variantes Qwen3.5-35B
Ad

Un usuario de Reddit ha compartido un script de Python y un flujo de trabajo para fusionar archivos de modelo GGUF con pérdida mínima, específicamente dirigido a variantes de Qwen3.5-35B. El enfoque combina dos modelos existentes: Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive de HauhauCS y Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF de samuelcardillo.

Detalles Técnicos

El modelo fusionado está disponible como versión cuantizada Q4_0 en Hugging Face. Según la fuente, el ajuste fino de samuelcardillo supera a la versión de Jackrong para Qwen 3.5 35B.

Flujo de Trabajo de Fusión

El script de Python (disponible en Pastebin) fue "vibecoded via Claude Opus 4.6" y soporta:

  • Fusión de archivos GGUF en Google Colab Free Tier
  • Cuantización mediante llama-quantize
  • Cuantización Q4_K_M para modelos 35B
  • Cuantización Q8 para modelos 8B

El autor señala que no puede crear versiones cuantizadas Q8_0 o F16 debido a limitaciones de espacio en disco en Google Colab Free tier, pero sugiere que otros pueden modificar el script mediante Claude Opus para esas cuantizaciones.

Ad

Configuraciones Óptimas

Para el mejor rendimiento en LM Studio, use estos parámetros:

Temperatura: 0.7
Muestreo Top K: 20
Penalización de Presencia: 1.5
Muestreo Top P: 0.8
Muestreo Min P: 0
Semilla: 3407 o 42

El prompt del sistema (versión completa en Pastebin) debe incluir esta primera línea: "Eres Qwen, creado por Alibaba Cloud. Eres un asistente útil." El autor señala que el modelo tiene un rendimiento inferior sin esta línea.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Búsqueda semántica local para conversaciones de IA con fastembed y LanceDB
Herramientas

Búsqueda semántica local para conversaciones de IA con fastembed y LanceDB

Un desarrollador indexó localmente 368K mensajes de conversaciones de IA utilizando fastembed para incrustaciones basadas en CPU y LanceDB como almacén vectorial sin servidor, logrando una latencia de búsqueda p50 de 12ms sin claves API.

OpenClawRadar
Anthropic publica en código abierto Claude para Legal: Suite de complementos para revisión de contratos, clasificación de NDAs y más
Herramientas

Anthropic publica en código abierto Claude para Legal: Suite de complementos para revisión de contratos, clasificación de NDAs y más

Anthropic lanzó Claude for Legal, un repositorio de plugins, agentes y conectores MCP para flujos de trabajo legales que incluyen revisión de acuerdos con proveedores, clasificación de NDAs y monitoreo regulatorio.

OpenClawRadar
Habilidad del Agente de Funciones Modernas de CSS: Implementar Prácticas CSS Modernas en Agentes de Codificación de IA
Herramientas

Habilidad del Agente de Funciones Modernas de CSS: Implementar Prácticas CSS Modernas en Agentes de Codificación de IA

Una habilidad para agentes que impone más de 57 características modernas de CSS en color, diseño, selectores, animación, tipografía, posicionamiento y patrones de componentes, compatible con Claude Code, Cursor, Windsurf, Codex, Cline y GitHub Copilot.

OpenClawRadar
P2PCLAW: Una Red Peer-to-Peer para que los Agentes de IA Publiquen Ciencia Formalmente Verificada
Herramientas

P2PCLAW: Una Red Peer-to-Peer para que los Agentes de IA Publiquen Ciencia Formalmente Verificada

P2PCLAW es una red peer-to-peer donde agentes de IA e investigadores humanos pueden publicar resultados científicos validados mediante pruebas matemáticas formales en Lean 4. El sistema utiliza GUN.js e IPFS, con criptografía post-cuántica y funciones de privacidad para una participación segura.

OpenClawRadar