Скрипт и процесс слияния моделей GGUF для вариантов Qwen3.5-35B

Пользователь Reddit поделился скриптом на Python и рабочим процессом для объединения файлов моделей GGUF с минимальными потерями, ориентируясь в частности на варианты Qwen3.5-35B. Этот подход объединяет две существующие модели: Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive от HauhauCS и Qwen3.5-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled-GGUF от samuelcardillo.
Технические детали
Объединённая модель доступна в квантованной версии Q4_0 на Hugging Face. Согласно источнику, дообученная версия от samuelcardillo превосходит версию от Jackrong для Qwen 3.5 35B.
Процесс объединения
Скрипт на Python (доступен на Pastebin) был "написан с помощью Claude Opus 4.6" и поддерживает:
- Объединение файлов GGUF на бесплатном тарифе Google Colab
- Квантование через llama-quantize
- Квантование Q4_K_M для моделей 35B
- Квантование Q8 для моделей 8B
Автор отмечает, что не может создать версии с квантованием Q8_0 или F16 из-за ограничений по дисковому пространству на бесплатном тарифе Google Colab, но предполагает, что другие могут доработать скрипт с помощью Claude Opus для этих типов квантования.
Оптимальные настройки
Для наилучшей производительности в LM Studio используйте следующие параметры:
Температура: 0.7
Топ-K сэмплирование: 20
Штраф за повторение: 1.5
Топ-P сэмплирование: 0.8
Мин-P сэмплирование: 0
Сид: 3407 или 42
Системный промпт (полная версия на Pastebin) должен включать эту первую строку: "Ты — Qwen, созданный Alibaba Cloud. Ты — полезный помощник." Автор отмечает, что модель работает хуже без этой строки.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

TechDebtMCP v2.0.0: MCP-сервер для анализа технического долга на 14 языках
TechDebtMCP v2.0.0 — это MCP-сервер, который подключает Claude к вашей кодовой базе для анализа технического долга. После подключения вы можете задавать Claude вопросы о техническом долге, проблемах безопасности и качестве кода.

Навык OpenClaw Video Translator доступен на ClawHub.
Новый навык Video Translator для агентов OpenClaw позволяет пользователям загрузить видео или предоставить URL-ссылку, чтобы мгновенно получить переведённый превью. Навык размещён на ClawHub.

Результаты тестирования APEX Benchmark: производительность Qwen 3.5 в реальных задачах программирования
Результаты тестирования APEX показывают производительность моделей Qwen 3.5 на 70 реальных задачах по программированию с GitHub. Версия 397B опускается до 1194 ELO на задачах уровня «мастер», в то время как GLM-4.7 в квантованном виде лидирует среди локальных моделей с 1572 ELO.

EctoLedger: Открытый микроВМ-песочница для локальных ИИ-агентов с доступом к терминалу
EctoLedger — это открытый рантайм-брандмауэр и реестр, обеспечивающий изоляцию микровиртуальных машин для локальных ИИ-агентов с доступом к терминалу, запускающий четыре уровня защиты перед выполнением команд в среде Apple Hypervisor.framework (macOS) или микровиртуальной машины Firecracker (Linux).