Claude 4.6 Opus Raciocínio Destilado para 14GB para Apple Silicon via Quantização MLX

Um desenvolvedor quantizou com sucesso um modelo de IA local que traz as capacidades de raciocínio do Claude 4.6 Opus para o hardware Apple Silicon, reduzindo significativamente sua pegada de memória enquanto mantém o desempenho.
O Modelo e Sua Origem
O trabalho se concentra no Qwen 3.5 27B, especificamente uma versão destilada a partir de trajetórias de raciocínio do Claude 4.6 Opus. O desenvolvedor buscava um modelo que pudesse "pensar" em vez de apenas autocompletar código, descrevendo a assinatura do Opus como "deliberada, analítica e captura as falhas arquitetônicas sutis que outros modelos perdem". Esta versão destilada traz esse andaime de "pensamento" para uma arquitetura de pesos abertos.
O Processo de Quantização
O modelo original tinha 55,6GB no formato BF16, o que o desenvolvedor observou ser "inviável" para a maioria das configurações locais, pois consome todo o pool de memória. Para resolver isso, eles usaram MLX para quantizar o modelo para Apple Silicon, convertendo-o para precisão de 4 bits. O objetivo era manter o raciocínio de alta fidelidade do Opus enquanto o tornava leve o suficiente para uso diário em planejamento técnico e lógica complexa.
Resultados e Desempenho
- Pegada: Reduzida de 55GB para 14GB
- Velocidade: ~16 tokens/segundo em um M4 Pro
- Raciocínio: Mantém o bloco completo de <think>, permitindo que o modelo "fale consigo mesmo" para verificar a lógica, simular casos extremos e autocorrigir-se antes de apresentar respostas finais
Disponibilidade e Requisitos
O desenvolvedor carregou os pesos no Hugging Face. O modelo requer um Mac com 24GB+ de RAM para executar lógica de alto nível e planejamento técnico privados completamente offline.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Codiff v0.1.0: Um Visualizador de Diff Local para Revisões de Código Geradas por LLM
Codiff v0.1.0 é um aplicativo de desktop rápido e minimalista para revisar diferenças Git locais, com modo de walkthrough com LLM e comentários em linha que podem ser copiados como Markdown.

OmniRecall Beta: Injeção de Memória com FAISS para Chats de LLM na Nuvem
OmniRecall é um bypass local do mitmproxy que intercepta o tráfego para interfaces de chat em nuvem como DeepSeek, adicionando uma camada de memória permanente usando indexação FAISS e sentence-transformers MiniLM-L6. Atualmente está em beta, requer operação apenas com CPU e usa uma licença de código disponível agressivamente restritiva.

Agente de IA de Desktop Skales Desenvolvido com Claude, Apresenta Mascote no Estilo Clippy
Skales é um agente de IA para desktop que roda localmente no Windows e macOS, usando o Claude via API OpenRouter/Anthropic para raciocínio e execução de ferramentas. Ele inclui um mascote Desktop Buddy flutuante com uma referência de skin de clipe de papel e pode executar comandos como enviar e-mails, gerenciar arquivos, navegar na web e gerenciar calendários.

SIDJUA v0.9.7: Inteligência Artificial Multiagente de Código Aberto com Aplicação de Governança Pré-Ação
SIDJUA v0.9.7 é um framework de IA multiagente de código aberto e auto-hospedado que aplica regras de governança antes que os agentes ajam, bloqueando ações não autorizadas como exceder orçamentos ou violar escopos. Ele suporta múltiplos provedores de LLM, roda com 4GB de RAM e inclui uma interface gráfica de desktop construída com Tauri v2.