APEX MoE Quants: Más de 25 Modelos y Nivel I-Nano

La estrategia de cuantización APEX (precisión mixta consciente de MoE) se ha expandido significativamente desde su lanzamiento inicial para Qwen 3.5 35B-A3B. La colección de Hugging Face ahora incluye más de 30 modelos MoE de las principales familias, y ahora está disponible un nuevo nivel ultracomprimido llamado I-Nano.

Resultados clave basados en comentarios de usuarios

El contexto largo se mantiene: Las versiones APEX I-Balanced e I-Compact mantienen la coherencia más allá de los 32k tokens en MoE de clase 30-50B, donde el Q4_K uniforme se degrada. La hipótesis es que mantener los expertos compartidos y las capas de borde en alta precisión preserva el enrutamiento de tokens a largo plazo.
Rendimiento en codificación: Los usuarios de Qwen 3.6 35B-A3B informan que I-Compact e I-Mini se mantienen cerca de F16 en tareas de código reales, superando las expectativas basadas en el tamaño.

Nuevos modelos añadidos

Agrupados por familia, la mayoría son MoE de clase 30-70B que caben en una GPU de consumo en I-Mini/I-Compact:

Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, Claude 4.6/4.7 distillados); Qwen3-Coder 30B, Next.
Tamaño frontera (Blackwell alquilado): MiniMax-M2.5/M2.7 (228B/24B activos), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
MoE híbridos Mamba/SSM: Variantes Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
Gemma 4: gemma-4 26B-A4B-it (recuantizado con la plantilla de chat actualizada de Google), +Claude Opus destilado, +heretic, Gemopus-4 Preview.
Fusiones comunitarias: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.

Nuevo nivel: I-Nano (IQ2_XXS)

Comprime los expertos enrutados de capas medias hasta 2.06 bpw, los casi-borde a IQ2_S, los bordes a Q3_K, y los expertos compartidos a Q5_K. Es aproximadamente un 20% más pequeño que I-Mini, viable solo en MoE debido a la activación dispersa de expertos. Requiere imatrix.

Ejemplos de tamaños:

Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (menor ahorro debido al experto compartido más denso)

Enlaces

📖 Lee la fuente completa: r/LocalLLaMA

Actualización de APEX MoE Quants: Más de 25 nuevos modelos y el nivel I-Nano lanzados

Resultados clave basados en comentarios de usuarios

Nuevos modelos añadidos

Nuevo nivel: I-Nano (IQ2_XXS)

Enlaces

👀 Ver también

Cementerio de IA: 100 herramientas de IA cerradas y adquiridas registradas – 88 solo en 2026

DeepSeek-V4 Pro y Flash: 1.6 billones de parámetros, contexto de 1 millón de tokens, atención híbrida

Error en la Respuesta Automática de WhatsApp que Silenciosamente Elimina Imágenes Multimedia en OpenClaw 2026.4.2

M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX