Actualización de APEX MoE Quants: Más de 25 nuevos modelos y el nivel I-Nano lanzados

La estrategia de cuantización APEX (precisión mixta consciente de MoE) se ha expandido significativamente desde su lanzamiento inicial para Qwen 3.5 35B-A3B. La colección de Hugging Face ahora incluye más de 30 modelos MoE de las principales familias, y ahora está disponible un nuevo nivel ultracomprimido llamado I-Nano.
Resultados clave basados en comentarios de usuarios
- El contexto largo se mantiene: Las versiones APEX I-Balanced e I-Compact mantienen la coherencia más allá de los 32k tokens en MoE de clase 30-50B, donde el Q4_K uniforme se degrada. La hipótesis es que mantener los expertos compartidos y las capas de borde en alta precisión preserva el enrutamiento de tokens a largo plazo.
- Rendimiento en codificación: Los usuarios de Qwen 3.6 35B-A3B informan que I-Compact e I-Mini se mantienen cerca de F16 en tareas de código reales, superando las expectativas basadas en el tamaño.
Nuevos modelos añadidos
Agrupados por familia, la mayoría son MoE de clase 30-70B que caben en una GPU de consumo en I-Mini/I-Compact:
- Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, Claude 4.6/4.7 distillados); Qwen3-Coder 30B, Next.
- Tamaño frontera (Blackwell alquilado): MiniMax-M2.5/M2.7 (228B/24B activos), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (multimodal), Holo3 35B-A3B, Huihui3.5 67B-A3B.
- MoE híbridos Mamba/SSM: Variantes Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
- Gemma 4: gemma-4 26B-A4B-it (recuantizado con la plantilla de chat actualizada de Google), +Claude Opus destilado, +heretic, Gemopus-4 Preview.
- Fusiones comunitarias: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Nuevo nivel: I-Nano (IQ2_XXS)
Comprime los expertos enrutados de capas medias hasta 2.06 bpw, los casi-borde a IQ2_S, los bordes a Q3_K, y los expertos compartidos a Q5_K. Es aproximadamente un 20% más pequeño que I-Mini, viable solo en MoE debido a la activación dispersa de expertos. Requiere imatrix.
Ejemplos de tamaños:
- Qwen 3.5 35B-A3B: I-Mini 13 GB → I-Nano 11 GB
- Nemotron Omni 30B: I-Mini 18 GB → I-Nano 17 GB (menor ahorro debido al experto compartido más denso)
Enlaces
📖 Lee la fuente completa: r/LocalLLaMA
👀 Ver también

Cementerio de IA: 100 herramientas de IA cerradas y adquiridas registradas – 88 solo en 2026
El AI Graveyard de ToolDirectory.ai rastrea 100 productos de IA discontinuados o adquiridos, con 88 muertes registradas en 2026. Las categorías incluyen Herramientas para Desarrolladores, Agentes de IA, Atención al Cliente y más, con muchas adquisiciones que se fusionan en plataformas más grandes como Salesforce.

DeepSeek-V4 Pro y Flash: 1.6 billones de parámetros, contexto de 1 millón de tokens, atención híbrida
DeepSeek-V4-Pro (1,6 billones de parámetros, 49B activos) y V4-Flash (284B parámetros, 13B activos) admiten contexto de 1 millón de tokens. La nueva atención híbrida (CSA + HCA) reduce los FLOPs de inferencia de un solo token al 27% y la caché KV al 10% de DeepSeek-V3.2.

Error en la Respuesta Automática de WhatsApp que Silenciosamente Elimina Imágenes Multimedia en OpenClaw 2026.4.2
Un error en OpenClaw 2026.4.2 hace que las respuestas automáticas de WhatsApp con MEDIA:./ruta/a/imagen.png eliminen silenciosamente las imágenes, mientras que las respuestas solo de texto funcionan correctamente. La misma configuración del agente funciona correctamente en Telegram.

M5 Max vs M3 Max Puntos de Referencia de Inferencia para Modelos Qwen en oMLX
Los puntos de referencia que comparan las MacBook Pro M5 Max y M3 Max ejecutando modelos Qwen 3.5 mediante oMLX v0.2.23 muestran que la M5 Max ofrece una generación de tokens entre 1.4 y 1.7 veces más rápida y hasta 4 veces más rápida en la fase de prellenado con contextos largos.