Nvidia Nemotron 3 Super: Модель с 120 миллиардами параметров и 12 миллиардами активных при выводе.

✍️ OpenClawRadar📅 Опубликовано: 12 марта 2026 г.🔗 Source
Nvidia Nemotron 3 Super: Модель с 120 миллиардами параметров и 12 миллиардами активных при выводе.
Ad

Nvidia выпустила Nemotron 3 Super — модель на 120 миллиардов параметров, которая активирует только 12 миллиардов параметров во время вывода. Это ставит под сомнение предположение, что большие модели всегда означают лучшие результаты, предоставляя знания модели на 120 миллиардов параметров примерно по вычислительной стоимости модели на 12 миллиардов. Модель не аппроксимирует более крупную через сжатие — это модель на 120 миллиардов параметров, которая научилась эффективно маршрутизировать, при этом остальные 108 миллиардов параметров доступны, когда это уместно, и бездействуют, когда нет.

Архитектурные решения

Три ключевых архитектурных решения делают это возможным:

  • LatentMoE: Проецирует токены в сжатое латентное пространство перед маршрутизацией, делая решения по маршрутизации дешевле. Это позволяет активировать в 4 раза больше экспертов при той же стоимости вывода, что и у стандартного MoE.
  • Гибрид Mamba-Attention: Заменяет квадратично дорогое трансформерное внимание на Mamba-2 для большей части обработки последовательностей, делая контекстное окно в 1 миллион токенов практичным, а не теоретическим. Достигает 91,75% точности на RULER при 1 млн токенов.
  • Многотокенное предсказание: Генерирует несколько будущих токенов за один прямой проход, обеспечивая нативное спекулятивное декодирование до 3 раз быстрее по реальному времени вывода без необходимости в отдельной черновой модели. Результат — в 5 раз более высокая пропускная способность, чем у предшественника, и превосходство над моделями, активирующими в 3 раза больше параметров на токен.
Ad

Более широкая тенденция

Это третье независимое подтверждение данного архитектурного подхода. DeepSeek V3 впервые продемонстрировал это с 671 миллиардами общих параметров и 37 миллиардами активных, превзойдя плотную модель Llama 3 405B. За ним последовал Qwen3-Coder-Next с 80 миллиардами общих параметров и всего 3 миллиардами активных при выводе, соответствуя Claude Sonnet 4.5 на SWE-Bench Pro и превосходя DeepSeek V3, который активирует 37 миллиардов на токен. Прирост эффективности накапливается, а не компенсируется — каждое архитектурное решение выигрывает от масштабирования больше, чем плотное внимание, и разрыв между этой архитектурой и плотными трансформерами растёт по мере масштабирования моделей.

Ключевое понимание из этих трёх независимых релизов заключается в том, что путь к возможностям — не в большей активации, а в лучшей маршрутизации. Хотя таблицы лидеров по количеству параметров будут продолжать публиковать цифры, активные параметры на токен становятся более честной метрикой для сравнения эффективности и производительности моделей.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

OpenClaw 2026.6.5: Бесплатный параллельный поиск, исправления стабильности повсеместно
Новости

OpenClaw 2026.6.5: Бесплатный параллельный поиск, исправления стабильности повсеместно

OpenClaw 2026.6.5 добавляет бесплатный встроенный Parallel Search без настройки, более безопасные ответы в каналах, улучшенное восстановление агентов и менее хрупкую настройку провайдеров/моделей.

OpenClawRadar
Allbirds переходит от обуви к инфраструктуре ИИ, акции взлетают на 580%.
Новости

Allbirds переходит от обуви к инфраструктуре ИИ, акции взлетают на 580%.

Обувной бренд Allbirds объявил о сделке на 50 миллионов долларов, чтобы стать бизнесом по инфраструктуре для вычислений ИИ под названием NewBird AI, что привело к росту его акций на 580%. Компания планирует закупить графические процессоры (GPU) и предложить графические чипы по требованию и облачные услуги для ИИ.

OpenClawRadar
Claude AI тратит 81 минуту на «настоящее мышление» – скачки пользовательских отчетов вокруг крупных обновлений
Новости

Claude AI тратит 81 минуту на «настоящее мышление» – скачки пользовательских отчетов вокруг крупных обновлений

Пользователь сообщает, что Claude AI потратил 1 час 21 минуту на простую задачу, предполагая, что всплески производительности происходят вскоре после крупных обновлений. Пример: исследовательский запрос просканировал 5 113 источников за один сеанс, но позже — только 100–200 источников для аналогичных запросов.

OpenClawRadar
Slurm Coding: Искусственный интеллект в разработке, где время исчезает
Новости

Slurm Coding: Искусственный интеллект в разработке, где время исчезает

Разработчик описывает 'сламовое кодирование' как интенсивный паттерн разработки, который стал возможен благодаря инструментам ИИ-кодирования, когда небольшие идеи быстро превращаются в полноценные системы через цикл быстрой реализации и выброса дофамина.

OpenClawRadar