Квантование Claude 4.6 Opus: сжатие до 14 ГБ для Apple Silicon

Разработчик успешно квантовал локальную ИИ-модель, которая переносит возможности рассуждений Claude 4.6 Opus на аппаратное обеспечение Apple Silicon, значительно уменьшая её объём памяти при сохранении производительности.

Модель и её происхождение

Работа сосредоточена на Qwen 3.5 27B, а именно на версии, дистиллированной из траекторий рассуждений Claude 4.6 Opus. Разработчик искал модель, которая могла бы «думать», а не просто автодополнять код, описывая характер Opus как «обдуманный, аналитический и улавливающий тонкие архитектурные недостатки, которые другие модели пропускают». Эта дистиллированная версия переносит этот «мыслительный» каркас на архитектуру с открытыми весами.

Процесс квантования

Исходная модель занимала 55,6 ГБ в формате BF16, что, по словам разработчика, «неприемлемо» для большинства локальных установок, так как потребляет всю память. Чтобы решить эту проблему, они использовали MLX для квантования модели под Apple Silicon, преобразовав её в 4-битную точность. Цель состояла в том, чтобы сохранить высококачественные рассуждения Opus, сделав модель достаточно лёгкой для ежедневного использования в техническом планировании и сложной логике.

Результаты и производительность

Объём памяти: Уменьшен с 55 ГБ до 14 ГБ
Скорость: ~16 токенов/сек на M4 Pro
Рассуждения: Сохраняет полный блок <think>, позволяя модели «разговаривать с собой» для проверки логики, моделирования крайних случаев и самокоррекции перед выдачей окончательных ответов

Доступность и требования

Разработчик загрузил веса на Hugging Face. Для работы модели требуется Mac с 24+ ГБ ОЗУ, чтобы выполнять приватную высокоуровневую логику и техническое планирование полностью офлайн.

📖 Read the full source: r/LocalLLaMA

Claude 4.6 Opus сжата до 14 ГБ для Apple Silicon с помощью квантования MLX

Модель и её происхождение

Процесс квантования

Результаты и производительность

Доступность и требования

👀 Смотрите также

Навык запуска продуктов Claude AI: Структурированные плейбуки для запуска продуктов на основе искусственного интеллекта

Использование вложений Harrier для локального семантического поиска в памяти агентов OpenClaw

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога

Cocall.ai MCP: Исходящие телефонные звонки с подключением реального человека