Claude 4.6 Opus сжата до 14 ГБ для Apple Silicon с помощью квантования MLX

Разработчик успешно квантовал локальную ИИ-модель, которая переносит возможности рассуждений Claude 4.6 Opus на аппаратное обеспечение Apple Silicon, значительно уменьшая её объём памяти при сохранении производительности.
Модель и её происхождение
Работа сосредоточена на Qwen 3.5 27B, а именно на версии, дистиллированной из траекторий рассуждений Claude 4.6 Opus. Разработчик искал модель, которая могла бы «думать», а не просто автодополнять код, описывая характер Opus как «обдуманный, аналитический и улавливающий тонкие архитектурные недостатки, которые другие модели пропускают». Эта дистиллированная версия переносит этот «мыслительный» каркас на архитектуру с открытыми весами.
Процесс квантования
Исходная модель занимала 55,6 ГБ в формате BF16, что, по словам разработчика, «неприемлемо» для большинства локальных установок, так как потребляет всю память. Чтобы решить эту проблему, они использовали MLX для квантования модели под Apple Silicon, преобразовав её в 4-битную точность. Цель состояла в том, чтобы сохранить высококачественные рассуждения Opus, сделав модель достаточно лёгкой для ежедневного использования в техническом планировании и сложной логике.
Результаты и производительность
- Объём памяти: Уменьшен с 55 ГБ до 14 ГБ
- Скорость: ~16 токенов/сек на M4 Pro
- Рассуждения: Сохраняет полный блок <think>, позволяя модели «разговаривать с собой» для проверки логики, моделирования крайних случаев и самокоррекции перед выдачей окончательных ответов
Доступность и требования
Разработчик загрузил веса на Hugging Face. Для работы модели требуется Mac с 24+ ГБ ОЗУ, чтобы выполнять приватную высокоуровневую логику и техническое планирование полностью офлайн.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Навык запуска продуктов Claude AI: Структурированные плейбуки для запуска продуктов на основе искусственного интеллекта
Бесплатный навык Claude предоставляет шесть проверенных в бою плейбуков запуска, охватывающих стратегию, подготовку, месседжинг и выполнение по каналам для запуска продуктов на базе ИИ. Репозиторий включает материалы на английском и китайском языках, организованные по этапам запуска.

Использование вложений Harrier для локального семантического поиска в памяти агентов OpenClaw
Запустите локальный сервер эмбеддингов с моделью Harrier от Microsoft, откройте API, совместимое с Ollama, и настройте memorySearch в OpenClaw для локального поиска семантической памяти без внешних сервисов.

OpenEvol: Потоковая система автономного самосовершенствования для больших языковых моделей с использованием истории диалога
OpenEvol v0.1.1 — это автономный конвейер, который автоматически анализирует историю диалогов ИИ для создания наборов данных для тонкой настройки без ручной разметки. Изначально работает на CPU и поддерживает пять бэкендов-учителей, включая API, совместимые с OpenAI, и HuggingFace Transformers.
Cocall.ai MCP: Исходящие телефонные звонки с подключением реального человека
Cocall.ai — это MCP для Claude, который позволяет совершать исходящие телефонные звонки с использованием полнодуплексной модели «речь-в-речь». Он может приостановить разговор, чтобы задать вам конкретный вопрос вместо того, чтобы гадать, ориентироваться в IVR и передавать звонки вам при необходимости.