Слияние GGUF: Скрипт для Qwen3.5-35B и Claude-4.6

Пользователь Reddit поделился скриптом на Python и рабочим процессом для объединения файлов моделей GGUF с минимальными потерями, ориентируясь в частности на варианты Qwen3.5-35B. Этот подход объединяет две существующие модели: Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive от HauhauCS и Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF от samuelcardillo.

Технические детали

Объединённая модель доступна в квантованной версии Q4_0 на Hugging Face. Согласно источнику, дообученная версия от samuelcardillo превосходит версию от Jackrong для Qwen 3.5 35B.

Процесс объединения

Скрипт на Python (доступен на Pastebin) был "написан с помощью Claude Opus 4.6" и поддерживает:

Объединение файлов GGUF на бесплатном тарифе Google Colab
Квантование через llama-quantize
Квантование Q4_K_M для моделей 35B
Квантование Q8 для моделей 8B

Автор отмечает, что не может создать версии с квантованием Q8_0 или F16 из-за ограничений по дисковому пространству на бесплатном тарифе Google Colab, но предполагает, что другие могут доработать скрипт с помощью Claude Opus для этих типов квантования.

Оптимальные настройки

Для наилучшей производительности в LM Studio используйте следующие параметры:

Температура: 0.7
Топ-K сэмплирование: 20
Штраф за повторение: 1.5
Топ-P сэмплирование: 0.8
Мин-P сэмплирование: 0
Сид: 3407 или 42

Системный промпт (полная версия на Pastebin) должен включать эту первую строку: "Ты — Qwen, созданный Alibaba Cloud. Ты — полезный помощник." Автор отмечает, что модель работает хуже без этой строки.

📖 Read the full source: r/LocalLLaMA

Скрипт и процесс слияния моделей GGUF для вариантов Qwen3.5-35B

Технические детали

Процесс объединения

Оптимальные настройки

👀 Смотрите также

Открытый исходный код агента навыков для шаблонов TypeScript, React и Next.js

Kanban CLI: Локальный, агент-ориентированный менеджер задач для терминала

Локально-облачная гибридная архитектура ИИ: практические паттерны, вдохновленные r/LocalLLaMA

adamsreview: Многоступенчатый плагин для проверки PR в Claude Code с параллельными агентами и циклом автоматического исправления