Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano

✍️ OpenClawRadar📅 Опубликовано: 4 мая 2026 г.🔗 Source
Обновление APEX MoE Quants: выпущено 25+ новых моделей и уровень I-Nano
Ad

Стратегия квантизации APEX (MoE-адаптивная смешанная точность) значительно расширилась с момента первоначального выпуска для Qwen 3.5 35B-A3B. Коллекция на Hugging Face теперь включает более 30 MoE-моделей из основных семейств, а также доступно новое сверхсжатое поколение I-Nano.

Ключевые результаты на основе отзывов пользователей

  • Длинный контекст сохраняется: Версии APEX I-Balanced и I-Compact сохраняют связность после 32k токенов для MoE-моделей класса 30–50 млрд параметров, где равномерный Q4_K деградирует. Гипотеза состоит в том, что сохранение высокой точности общих экспертов и крайних слоёв сохраняет маршрутизацию токенов на больших расстояниях.
  • Производительность в кодировании: Пользователи Qwen 3.6 35B-A3B сообщают, что I-Compact и I-Mini близки к F16 на реальных задачах кодирования, превосходя ожидания для своего размера.

Добавленные новые модели

Сгруппированы по семействам, большинство — MoE-модели класса 30–70 млрд параметров, помещающиеся на один потребительский GPU в режиме I-Mini/I-Compact:

  • Qwen: Qwen 3.5 122B-A10B, 397B-A17B, Claude-distilled, Fernflower, TQ; Qwen 3.6 35B-A3B (heretic, дистилляты Claude 4.6/4.7); Qwen3-Coder 30B, Next.
  • Пограничный размер (арендованный Blackwell): MiniMax-M2.5/M2.7 (228B/24B активных), Mistral-Small 4 119B-2603, NVIDIA Nemotron-3-Super 120B-A12B, GLM-4.7 Flash, Step-3.5 Flash, Nemotron-3-Nano 30B-A3B, Nemotron-3-Nano-Omni (мультимодальная), Holo3 35B-A3B, Huihui3.5 67B-A3B.
  • Гибридные Mamba/SSM MoE: варианты Nemotron-3-Nano, Holo3, LFM2 24B-A2B.
  • Gemma 4: gemma-4 26B-A4B-it (переквантована с обновлённым Google-шаблоном чата), +дистиллят Claude Opus, +heretic, Gemopus-4 Preview.
  • Сообщественные merge: Carnice MoE 35B-A3B, Carnice-Qwen3.6, Qwopus MoE 35B-A3B.
Ad

Новое поколение: I-Nano (IQ2_XXS)

Снижает точность экспертов средних слоёв до 2,06 бит на параметр, околокрайних — до IQ2_S, крайних — до Q3_K, общих — до Q5_K. Примерно на 20% компактнее I-Mini, возможно только для MoE из-за разреженной активации экспертов. Требует imatrix.

Примеры размеров:

  • Qwen 3.5 35B-A3B: I-Mini 13 ГБ → I-Nano 11 ГБ
  • Nemotron Omni 30B: I-Mini 18 ГБ → I-Nano 17 ГБ (меньше экономии из-за более плотного общего эксперта)

Ссылки

📖 Читать полный источник: r/LocalLLaMA

Ad

👀 Смотрите также

Анализ Пользовательского соглашения Claude: Хранение данных, ограничение ответственности и прекращение обслуживания
Новости

Анализ Пользовательского соглашения Claude: Хранение данных, ограничение ответственности и прекращение обслуживания

Анализ Пользовательского соглашения Anthropic раскрывает ключевые детали для подписчиков плана Max за $100 в месяц: обучение на данных включено по умолчанию с хранением в течение 5 лет для согласившихся пользователей, ответственность ограничена максимум $600, а услуга может быть прекращена без возврата средств за нарушения.

OpenClawRadar
OpenClaw запускает BotsChat: родной чат-инструмент, революционизирующий коммуникацию агентов.
Новости

OpenClaw запускает BotsChat: родной чат-инструмент, революционизирующий коммуникацию агентов.

OpenClaw представляет BotsChat, новый нативный инструмент чата, предназначенный для улучшения общения между AI-кодирующими агентами. Узнайте, как этот инструмент может оптимизировать ваши процессы автоматизации.

OpenClawRadar
Инженеры ИИ не застрахованы от замены ИИ
Новости

Инженеры ИИ не застрахованы от замены ИИ

По мере того как фундаментальные модели вроде DINO от Meta становятся универсальными, узкоспециализированные роли AI-инженеров оказываются под угрозой. Автор утверждает, что большинство рабочих мест AI-инженеров будут заменены раньше, чем другие должности разработчиков.

OpenClawRadar
Обсуждение на Reddit о долгосрочных рисках зависимости от кодирующих агентов
Новости

Обсуждение на Reddit о долгосрочных рисках зависимости от кодирующих агентов

Пользователь Reddit утверждает, что современные кодирующие агенты, такие как Claude Code и Copilot, создают зависимость, которая может привести к привязке к поставщику, централизации создания программного обеспечения и превращению инженерного мастерства в товар.

OpenClawRadar