Qwen 35B-A3B como agente sempre ativo em M4 Mac de 16GB: falha de I/O de disco antes da RAM

Executar um modelo MoE Qwen 35B-A3B como um agente sempre ativo em um Mac Mini M4 de 16GB (configuração básica) parecia plausível no papel: com --mmap e --flash-attn do llama.cpp, o quant IQ3_XXS (12GB em disco) mantém-se residente na RAM entre 4 e 6GB via paginação por especialista, entregando ~17 tok/s com --threads 8 --ctx-size 4096. Como ferramenta de lote, funciona nesta máquina. Mas ao escalar para um loop agentivo contínuo, rodando junto com Claude Code (Opus/Sonnet) e Codex CLI, o sistema colapsou — e o gargalo foi o disco, não a RAM.
A configuração que quebrou
- Daemon Ollama servindo
qwen3.5:9b+qwen3.5:4b(config:OLLAMA_MAX_LOADED_MODELS=2,OLLAMA_KEEP_ALIVE=10m,OLLAMA_FLASH_ATTENTION=1,OLLAMA_KV_CACHE_TYPE=q8_0) llama-serverpara o 35B em sua própria porta- Bridge LiteLLM proxyando tudo como um endpoint compatível com Claude na porta
:4000 - Uma ou duas sessões do Claude Code
- Sessão do Codex CLI
- Servidor doméstico usual com cron, watchers, fila de e-mail
O que falhou
Paginação contínua mmap do 35B + observador/indexador de arquivos do Claude Code + contexto mantido pelo Codex = contenção constante de SSD. O Mac começou a reiniciar espontaneamente (sem logs de crash em log show --predicate 'eventMessage CONTAINS "panic"'), tarefas cron de fundo perderam janelas por 5+ minutos e depois falharam silenciosamente. Problemas conhecidos: Claude Code e Codex CLI têm bugs abertos para crescimento de memória em sessões longas (#22968), uso contínuo de CPU ociosa (#19393) e acúmulo de processos (#11122). Com uma ferramenta é imperceptível; com duas mais um 35B paginado fazendo loops reais, o disco morre primeiro.
Solução estável
- LaunchDaemon do 35B
llama-serverdesabilitado (plist renomeado para.disabled) - 24GB recuperados deletando o GGUF do 35B e um Gemma 26B antigo
- Todas as rotas para Anthropic agora vão para Ollama:
qwen3.5:9bpara opus/sonnet,qwen3.5:4bpara haiku - Ambos residentes via Metal no Ollama (~3GB GPU + 0.5GB CPU cada), removem-se limpos em idle
- LiteLLM movido para um LaunchAgent de usuário adequado (
KeepAlive=true,ThrottleInterval=30) — estava rodando como um simples processopython -m litellmhá 7 dias
A conclusão
O sonho do agente em loop com 35B-A3B está vivo em uma classe diferente de máquina. Em 16GB unificados, é uma ferramenta de lote para propósito único, não uma camada sempre ativa. O autor estima mínimo de 32GB de memória unificada para inferência sustentada de agente MoE sem sofrimento com swap ou contenção de daemons.
Se você tem um truque para rodá-lo de forma sustentável em 16GB sem contenção de disco, o tópico no r/LocalLLaMA ainda está ativo.
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

A Análise de Preços de Inferência Revela Variação de 4,4x para o Mesmo Modelo entre Provedores
Análise dos preços de inferência para o Llama 3.1 70B Instruct mostra uma diferença de custo de 4,4x entre provedores, com DeepInfra a US$ 0,20/US$ 0,27 por milhão de tokens e Together a US$ 0,88/US$ 0,88. Para modelos de raciocínio, a variação chega a ~30x entre DeepSeek R1 e OpenAI o1.

Usuários relatam que Claude Opus 4.7 regride em raciocínio e conversação
O Opus 4.7 introduz um novo tokenizador que custa 30-50% mais, apresenta metanarrativa, instabilidade de posição e planejamento sem execução — tornando-o pior para colaboração técnica do que o 4.6.

Claude para Excel e PowerPoint Atualizações: Contexto e Integração de Habilidades entre Aplicativos
Claude para Excel e PowerPoint agora compartilham contexto de conversa entre arquivos abertos, com Habilidades disponíveis em ambos os complementos. As ferramentas estão acessíveis via Amazon Bedrock, Google Cloud's Vertex AI e Microsoft Foundry para usuários pagantes de Mac e Windows.

Gemini Embedding 2: O Primeiro Modelo de Embedding Nativamente Multimodal da Google Lançado
O Google lançou o Gemini Embedding 2, seu primeiro modelo de embedding nativamente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding. O modelo suporta até 8192 tokens de texto, 6 imagens por solicitação, 120 segundos de vídeo e PDFs de até 6 páginas, com dimensões de saída flexíveis de 3072 até 768.