Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano

Стратегия квантизации APEX (MoE-адаптивная смешанная точность) значительно расширилась с момента первоначального выпуска для Qwen 3.5 35B-A3B. Коллекция на Hugging Face теперь включает более 30 MoE-моделей из основных семейств, а также доступно новое сверхсжатое поколение I-Nano.
Ключевые результаты на основе отзывов пользователей
- Длинный контекст сохраняется: Версии APEX I-Balanced и I-Compact сохраняют связность после 32k токенов для MoE-моделей класса 30–50 млрд параметров, где равномерный Q4_K деградирует. Гипотеза состоит в том, что сохранение высокой точности общих экспертов и крайних слоёв сохраняет маршрутизацию токенов на больших расстояниях.
- Производительность в кодировании: Пользователи Qwen 3.6 35B-A3B сообщают, что I-Compact и I-Mini близки к F16 на реальных задачах кодирования, превосходя ожидания для своего размера.
Добавленные новые модели
Сгруппированы по семействам, большинство — MoE-модели класса 30–70 млрд параметров, помещающиеся на один потребительский GPU в режиме I-Mini/I-Compact:
- Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, дистилляты Claude 4.6/4.7); Qwen3-Coder 30B, Next.
- Пограничный размер (арендованный Blackwell): MiniMax-M2.5/M2.7 (228B/24B активных), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (мультимодальная), Holo3 35B-A3B, Huihui3.5 67B-A3B.
- Гибридные Mamba/SSM MoE: варианты Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
- Gemma 4: gemma-4 26B-A4B-it (переквантована с обновлённым Google-шаблоном чата), +дистиллят Claude Opus, +heretic, Gemopus-4 Preview.
- Сообщественные merge: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Новое поколение: I-Nano (IQ2_XXS)
Снижает точность экспертов средних слоёв до 2,06 бит на параметр, околокрайних — до IQ2_S, крайних — до Q3_K, общих — до Q5_K. Примерно на 20% компактнее I-Mini, возможно только для MoE из-за разреженной активации экспертов. Требует imatrix.
Примеры размеров:
- Qwen 3.5 35B-A3B: I-Mini 13 ГБ → I-Nano 11 ГБ
- Nemotron Omni 30B: I-Mini 18 ГБ → I-Nano 17 ГБ (меньше экономии из-за более плотного общего эксперта)
Ссылки
📖 Читать полный источник: r/LocalLLaMA
👀 Смотрите также

Анализ Пользовательского соглашения Claude: Хранение данных, ограничение ответственности и прекращение обслуживания
Анализ Пользовательского соглашения Anthropic раскрывает ключевые детали для подписчиков плана Max за $100 в месяц: обучение на данных включено по умолчанию с хранением в течение 5 лет для согласившихся пользователей, ответственность ограничена максимум $600, а услуга может быть прекращена без возврата средств за нарушения.

OpenClaw запускает BotsChat: родной чат-инструмент, революционизирующий коммуникацию агентов.
OpenClaw представляет BotsChat, новый нативный инструмент чата, предназначенный для улучшения общения между AI-кодирующими агентами. Узнайте, как этот инструмент может оптимизировать ваши процессы автоматизации.

Инженеры ИИ не застрахованы от замены ИИ
По мере того как фундаментальные модели вроде DINO от Meta становятся универсальными, узкоспециализированные роли AI-инженеров оказываются под угрозой. Автор утверждает, что большинство рабочих мест AI-инженеров будут заменены раньше, чем другие должности разработчиков.

Обсуждение на Reddit о долгосрочных рисках зависимости от кодирующих агентов
Пользователь Reddit утверждает, что современные кодирующие агенты, такие как Claude Code и Copilot, создают зависимость, которая может привести к привязке к поставщику, централизации создания программного обеспечения и превращению инженерного мастерства в товар.