APEX MoE Quants: 25+ Novos Modelos e Categoria I-Nano

A estratégia APEX de quantização (precisão mista consciente de MoE) se expandiu significativamente desde seu lançamento inicial para o Qwen 3.5 35B-A3B. A coleção do Hugging Face agora inclui mais de 30 modelos MoE das principais famílias, e um novo nível ultracomprimido I-Nano está disponível.

Principais resultados do feedback dos usuários

Contexto longo se mantém: As versões APEX I-Balanced e I-Compact mantêm coerência após 32k tokens em MoEs de classe 30-50B, onde o Q4_K uniforme degrada. A hipótese é que manter especialistas compartilhados e camadas de borda em alta precisão preserva o roteamento de tokens de longo alcance.
Desempenho em codificação: Usuários do Qwen 3.6 35B-A3B relatam que I-Compact e I-Mini ficam próximos do F16 em tarefas reais de código, melhor do que as expectativas para o tamanho.

Novos modelos adicionados

Agrupados por família, a maioria são MoEs de classe 30-70B que cabem em uma GPU de consumo no I-Mini/I-Compact:

Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (herege, destilações Claude 4.6/4.7); Qwen3-Coder 30B, Next.
Tamanho fronteiriço (Blackwell alugado): MiniMax-M2.5/M2.7 (228B/24B ativos), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
MoEs híbridos Mamba/SSM: Variantes Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
Gemma 4: gemma-4 26B-A4B-it (requantizado com template de chat Google atualizado), +destilação Claude Opus, +herege, Gemopus-4 Preview.
Mesclagens da comunidade: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.

Novo nível: I-Nano (IQ2_XXS)

Reduz especialistas roteados de camadas intermediárias para 2,06 bpw, próximo à borda para IQ2_S, bordas para Q3_K, especialistas compartilhados em Q5_K. Cerca de 20% menor que I-Mini, viável apenas em MoE devido à ativação esparsa de especialistas. Requer imatrix.

Exemplos de tamanhos:

Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (menos economia devido ao especialista compartilhado mais denso)

Links

📖 Leia a fonte completa: r/LocalLLaMA

Atualização APEX MoE Quants: Mais de 25 Novos Modelos e a Nova Categoria I-Nano Lançada

Principais resultados do feedback dos usuários

Novos modelos adicionados

Novo nível: I-Nano (IQ2_XXS)

Links

👀 See Also

Claude Sonnet 4.6 Revelado: Capacidades Aprimoradas de Programação e Uso de Computador

Explorando a Nova Camada de Chat Criada para Agentes de IA: Queremos o Feedback da Comunidade!

Os Termos do Contrato da OpenAI com o Pentágono Permitem 'Qualquer Uso Legal', Incluindo Potencial Vigilância

GitHub Copilot Inseriu Autopromoção na Descrição do PR