Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano

✍️ OpenClawRadar📅 Опубликовано: 4 мая 2026 г.🔗 Source
Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano
Ad

Стратегия квантизации APEX (MoE-адаптивная смешанная точность) значительно расширилась с момента первоначального выпуска для Qwen 3.5 35B-A3B. Коллекция на Hugging Face теперь включает более 30 MoE-моделей из основных семейств, а также доступно новое сверхсжатое поколение I-Nano.

Ключевые результаты на основе отзывов пользователей

  • Длинный контекст сохраняется: Версии APEX I-Balanced и I-Compact сохраняют связность после 32k токенов для MoE-моделей класса 30–50 млрд параметров, где равномерный Q4_K деградирует. Гипотеза состоит в том, что сохранение высокой точности общих экспертов и крайних слоёв сохраняет маршрутизацию токенов на больших расстояниях.
  • Производительность в кодировании: Пользователи Qwen 3.6 35B-A3B сообщают, что I-Compact и I-Mini близки к F16 на реальных задачах кодирования, превосходя ожидания для своего размера.

Добавленные новые модели

Сгруппированы по семействам, большинство — MoE-модели класса 30–70 млрд параметров, помещающиеся на один потребительский GPU в режиме I-Mini/I-Compact:

  • Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, дистилляты Claude 4.6/4.7); Qwen3-Coder 30B, Next.
  • Пограничный размер (арендованный Blackwell): MiniMax-M2.5/M2.7 (228B/24B активных), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (мультимодальная), Holo3 35B-A3B, Huihui3.5 67B-A3B.
  • Гибридные Mamba/SSM MoE: варианты Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
  • Gemma 4: gemma-4 26B-A4B-it (переквантована с обновлённым Google-шаблоном чата), +дистиллят Claude Opus, +heretic, Gemopus-4 Preview.
  • Сообщественные merge: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Ad

Новое поколение: I-Nano (IQ2_XXS)

Снижает точность экспертов средних слоёв до 2,06 бит на параметр, околокрайних — до IQ2_S, крайних — до Q3_K, общих — до Q5_K. Примерно на 20% компактнее I-Mini, возможно только для MoE из-за разреженной активации экспертов. Требует imatrix.

Примеры размеров:

  • Qwen 3.5 35B-A3B: I-Mini 13 ГБ → I-Nano 11 ГБ
  • Nemotron Omni 30B: I-Mini 18 ГБ → I-Nano 17 ГБ (меньше экономии из-за более плотного общего эксперта)

Ссылки

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Новые кредиты подписки Anthropic Claude: Agent SDK и claude -p получают отдельный ограниченный пул с 15 июня
Новости

Новые кредиты подписки Anthropic Claude: Agent SDK и claude -p получают отдельный ограниченный пул с 15 июня

Начиная с 15 июня подписчики Claude получают отдельный ежемесячный кредит на использование Agent SDK и claude -p: $200/мес для Max 20x, $100 для Max 5x, $20 для Pro. Использование прекращается, когда кредит исчерпан, если не включена дополнительная оплата. Интерактивные Claude Code и чат остаются на подписочном пуле.

OpenClawRadar
🦀
Новости

Claude Code v2.1.140: Примечания к использованию инструментов агента, более строгие правила самоизменения, отложенные предупреждения

Упрощенные заметки об инструменте агента, явный список путей самоизменения и предупреждение о недопустимости коротких пробуждений для опроса.

OpenClawRadar
Запуск OpenClawd бесплатно: Успехи и проблемы
Новости

Запуск OpenClawd бесплатно: Успехи и проблемы

В недавнем посте на r/clawdbot участник делится своим опытом работы с OpenClawd без API-ключей, обсуждая свои успехи и сложности, с которыми он столкнулся.

OpenClawRadar
Изучение тонкостей OpenClaw: как он работает
Новости

Изучение тонкостей OpenClaw: как он работает

OpenClaw революционизирует область программирования ИИ благодаря своей инновационной архитектуре и уникальным функциональным возможностям. Узнайте о внутренней работе этого мощного автоматизационного агента.

OpenClawRadar