Claude 4.6 Opus Raciocínio Destilado: 55,6GB a 14GB com Quantização MLX

Um desenvolvedor quantizou com sucesso um modelo de IA local que traz as capacidades de raciocínio do Claude 4.6 Opus para o hardware Apple Silicon, reduzindo significativamente sua pegada de memória enquanto mantém o desempenho.

O Modelo e Sua Origem

O trabalho se concentra no Qwen 3.5 27B, especificamente uma versão destilada a partir de trajetórias de raciocínio do Claude 4.6 Opus. O desenvolvedor buscava um modelo que pudesse "pensar" em vez de apenas autocompletar código, descrevendo a assinatura do Opus como "deliberada, analítica e captura as falhas arquitetônicas sutis que outros modelos perdem". Esta versão destilada traz esse andaime de "pensamento" para uma arquitetura de pesos abertos.

O Processo de Quantização

O modelo original tinha 55,6GB no formato BF16, o que o desenvolvedor observou ser "inviável" para a maioria das configurações locais, pois consome todo o pool de memória. Para resolver isso, eles usaram MLX para quantizar o modelo para Apple Silicon, convertendo-o para precisão de 4 bits. O objetivo era manter o raciocínio de alta fidelidade do Opus enquanto o tornava leve o suficiente para uso diário em planejamento técnico e lógica complexa.

Resultados e Desempenho

Pegada: Reduzida de 55GB para 14GB
Velocidade: ~16 tokens/segundo em um M4 Pro
Raciocínio: Mantém o bloco completo de <think>, permitindo que o modelo "fale consigo mesmo" para verificar a lógica, simular casos extremos e autocorrigir-se antes de apresentar respostas finais

Disponibilidade e Requisitos

O desenvolvedor carregou os pesos no Hugging Face. O modelo requer um Mac com 24GB+ de RAM para executar lógica de alto nível e planejamento técnico privados completamente offline.

📖 Leia a fonte completa: r/LocalLLaMA