Atualização APEX MoE Quants: Mais de 25 Novos Modelos e a Nova Categoria I-Nano Lançada

A estratégia APEX de quantização (precisão mista consciente de MoE) se expandiu significativamente desde seu lançamento inicial para o Qwen 3.5 35B-A3B. A coleção do Hugging Face agora inclui mais de 30 modelos MoE das principais famílias, e um novo nível ultracomprimido I-Nano está disponível.
Principais resultados do feedback dos usuários
- Contexto longo se mantém: As versões APEX I-Balanced e I-Compact mantêm coerência após 32k tokens em MoEs de classe 30-50B, onde o Q4_K uniforme degrada. A hipótese é que manter especialistas compartilhados e camadas de borda em alta precisão preserva o roteamento de tokens de longo alcance.
- Desempenho em codificação: Usuários do Qwen 3.6 35B-A3B relatam que I-Compact e I-Mini ficam próximos do F16 em tarefas reais de código, melhor do que as expectativas para o tamanho.
Novos modelos adicionados
Agrupados por família, a maioria são MoEs de classe 30-70B que cabem em uma GPU de consumo no I-Mini/I-Compact:
- Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (herege, destilações Claude 4.6/4.7); Qwen3-Coder 30B, Next.
- Tamanho fronteiriço (Blackwell alugado): MiniMax-M2.5/M2.7 (228B/24B ativos), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
- MoEs híbridos Mamba/SSM: Variantes Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
- Gemma 4: gemma-4 26B-A4B-it (requantizado com template de chat Google atualizado), +destilação Claude Opus, +herege, Gemopus-4 Preview.
- Mesclagens da comunidade: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Novo nível: I-Nano (IQ2_XXS)
Reduz especialistas roteados de camadas intermediárias para 2,06 bpw, próximo à borda para IQ2_S, bordas para Q3_K, especialistas compartilhados em Q5_K. Cerca de 20% menor que I-Mini, viável apenas em MoE devido à ativação esparsa de especialistas. Requer imatrix.
Exemplos de tamanhos:
- Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
- Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (menos economia devido ao especialista compartilhado mais denso)
Links
📖 Leia a fonte completa: r/LocalLLaMA
👀 See Also

Estudo da ETH Zurich: Contexto Excessivo Reduz o Desempenho de Agentes de IA para Programação
Um estudo da ETH Zurich testou quatro agentes de codificação em 138 tarefas reais do GitHub e descobriu que arquivos de contexto gerados por LLM reduziram as taxas de sucesso das tarefas em 2-3% enquanto aumentaram os custos de inferência em 20%. O contexto escrito por humanos melhorou o sucesso em apenas ~4% com aumentos significativos de custos.

Claude Code v2.1.101 adiciona integração de equipes, suporte TLS empresarial e corrige vazamentos de memória.
Claude Code v2.1.101 introduz um comando /team-onboarding para gerar guias de integração de colegas de equipe, adiciona confiança no armazenamento de certificados CA do sistema operacional por padrão para proxies TLS corporativos e corrige um vazamento de memória em sessões longas, juntamente com mais de 25 outras melhorias e correções de bugs.

As assinaturas do Claude não cobrem mais o uso de ferramentas de terceiros.
A partir de amanhã às 12h PT, as assinaturas do Claude não cobrirão mais o uso em plataformas de terceiros como o OpenClaw. Os usuários ainda podem acessar essas plataformas por meio de pacotes de uso extra ou chaves da API do Claude.

Como Conectar o OpenClaw ao Ollama Remotamente
Um guia abrangente sobre como conectar o OpenClaw ao Ollama a partir de outro PC, explorando insights da comunidade e etapas práticas para uma integração perfeita.