Qwen 35B-A3B como agente sempre ativo em M4 Mac de 16GB: falha de I/O de disco antes da RAM

✍️ OpenClawRadar📅 Publicado: April 28, 2026🔗 Source
Qwen 35B-A3B como agente sempre ativo em M4 Mac de 16GB: falha de I/O de disco antes da RAM
Ad

Executar um modelo MoE Qwen 35B-A3B como um agente sempre ativo em um Mac Mini M4 de 16GB (configuração básica) parecia plausível no papel: com --mmap e --flash-attn do llama.cpp, o quant IQ3_XXS (12GB em disco) mantém-se residente na RAM entre 4 e 6GB via paginação por especialista, entregando ~17 tok/s com --threads 8 --ctx-size 4096. Como ferramenta de lote, funciona nesta máquina. Mas ao escalar para um loop agentivo contínuo, rodando junto com Claude Code (Opus/Sonnet) e Codex CLI, o sistema colapsou — e o gargalo foi o disco, não a RAM.

A configuração que quebrou

  • Daemon Ollama servindo qwen3.5:9b + qwen3.5:4b (config: OLLAMA_MAX_LOADED_MODELS=2, OLLAMA_KEEP_ALIVE=10m, OLLAMA_FLASH_ATTENTION=1, OLLAMA_KV_CACHE_TYPE=q8_0)
  • llama-server para o 35B em sua própria porta
  • Bridge LiteLLM proxyando tudo como um endpoint compatível com Claude na porta :4000
  • Uma ou duas sessões do Claude Code
  • Sessão do Codex CLI
  • Servidor doméstico usual com cron, watchers, fila de e-mail

O que falhou

Paginação contínua mmap do 35B + observador/indexador de arquivos do Claude Code + contexto mantido pelo Codex = contenção constante de SSD. O Mac começou a reiniciar espontaneamente (sem logs de crash em log show --predicate 'eventMessage CONTAINS "panic"'), tarefas cron de fundo perderam janelas por 5+ minutos e depois falharam silenciosamente. Problemas conhecidos: Claude Code e Codex CLI têm bugs abertos para crescimento de memória em sessões longas (#22968), uso contínuo de CPU ociosa (#19393) e acúmulo de processos (#11122). Com uma ferramenta é imperceptível; com duas mais um 35B paginado fazendo loops reais, o disco morre primeiro.

Ad

Solução estável

  • LaunchDaemon do 35B llama-server desabilitado (plist renomeado para .disabled)
  • 24GB recuperados deletando o GGUF do 35B e um Gemma 26B antigo
  • Todas as rotas para Anthropic agora vão para Ollama: qwen3.5:9b para opus/sonnet, qwen3.5:4b para haiku
  • Ambos residentes via Metal no Ollama (~3GB GPU + 0.5GB CPU cada), removem-se limpos em idle
  • LiteLLM movido para um LaunchAgent de usuário adequado (KeepAlive=true, ThrottleInterval=30) — estava rodando como um simples processo python -m litellm há 7 dias

A conclusão

O sonho do agente em loop com 35B-A3B está vivo em uma classe diferente de máquina. Em 16GB unificados, é uma ferramenta de lote para propósito único, não uma camada sempre ativa. O autor estima mínimo de 32GB de memória unificada para inferência sustentada de agente MoE sem sofrimento com swap ou contenção de daemons.

Se você tem um truque para rodá-lo de forma sustentável em 16GB sem contenção de disco, o tópico no r/LocalLLaMA ainda está ativo.

📖 Leia a fonte completa: r/LocalLLaMA

Ad

👀 See Also

A Análise de Preços de Inferência Revela Variação de 4,4x para o Mesmo Modelo entre Provedores
News

A Análise de Preços de Inferência Revela Variação de 4,4x para o Mesmo Modelo entre Provedores

Análise dos preços de inferência para o Llama 3.1 70B Instruct mostra uma diferença de custo de 4,4x entre provedores, com DeepInfra a US$ 0,20/US$ 0,27 por milhão de tokens e Together a US$ 0,88/US$ 0,88. Para modelos de raciocínio, a variação chega a ~30x entre DeepSeek R1 e OpenAI o1.

OpenClawRadar
Usuários relatam que Claude Opus 4.7 regride em raciocínio e conversação
News

Usuários relatam que Claude Opus 4.7 regride em raciocínio e conversação

O Opus 4.7 introduz um novo tokenizador que custa 30-50% mais, apresenta metanarrativa, instabilidade de posição e planejamento sem execução — tornando-o pior para colaboração técnica do que o 4.6.

OpenClawRadar
Claude para Excel e PowerPoint Atualizações: Contexto e Integração de Habilidades entre Aplicativos
News

Claude para Excel e PowerPoint Atualizações: Contexto e Integração de Habilidades entre Aplicativos

Claude para Excel e PowerPoint agora compartilham contexto de conversa entre arquivos abertos, com Habilidades disponíveis em ambos os complementos. As ferramentas estão acessíveis via Amazon Bedrock, Google Cloud's Vertex AI e Microsoft Foundry para usuários pagantes de Mac e Windows.

OpenClawRadar
Gemini Embedding 2: O Primeiro Modelo de Embedding Nativamente Multimodal da Google Lançado
News

Gemini Embedding 2: O Primeiro Modelo de Embedding Nativamente Multimodal da Google Lançado

O Google lançou o Gemini Embedding 2, seu primeiro modelo de embedding nativamente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding. O modelo suporta até 8192 tokens de texto, 6 imagens por solicitação, 120 segundos de vídeo e PDFs de até 6 páginas, com dimensões de saída flexíveis de 3072 até 768.

OpenClawRadar