NVIDIA выпускает Nemotron-3-Ultra-550B: 55B активных параметров, контекст 1M, гибрид LatentMoE

NVIDIA выпустила Nemotron-3-Ultra-550B-A55B-BF16 — LLM масштаба frontier с общим количеством параметров 550 млрд и 55 млрд активных. Модель использует гибридную архитектуру Latent Mixture-of-Experts (LatentMoE), которая чередует слои Mamba-2, MoE и Attention, а также механизм Multi-Token Prediction (MTP) для ускоренной генерации. Длина контекста достигает 1 млн токенов.
Ключевые характеристики
- Архитектура: Гибрид LatentMoE – Mamba-2 + MoE + Attention + MTP
- Параметры: 550 млрд всего / 55 млрд активных
- Контекст: до 1 млн токенов
- Минимум GPU: 8x GB200/B200/GB300/B300, 16x H100, 8x H200
- Языки: английский, французский, испанский, итальянский, немецкий, японский, корейский, хинди, бразильский португальский, китайский
- Рассуждения: Включаются/отключаются настраиваемо через шаблон чата (
enable_thinking=True/False) - Лицензия: OpenMDW License Agreement v1.1
Модель предназначена для передовых рассуждений, сложных агентных рабочих процессов, анализа длинных контекстов, использования инструментов, многоязычных рассуждений и высокорискового RAG. Она обучена с использованием NVFP4 для вычислительной эффективности. Открытые веса, обучающие данные и рецепты включены в лицензию OpenMDW. Для локального вывода потребуется минимум 8x H200 или эквивалент.
📖 Источник: r/LocalLLaMA
👀 Смотрите также

Anthropic вводит правило: сторонние обёртки для Claude больше не покрываются лимитами подписки.
Anthropic вводит изменение политики, вступающее в силу 4 апреля, согласно которому сторонние оболочки, такие как OpenClaw, больше не будут расходовать лимиты использования подписки Claude. Пользователям необходимо включить дополнительное использование или отменить подписку до 9 апреля для получения возврата средств.

Снижение соответствия системному промпту Claude в длинных беседах
Агенты на основе Claude демонстрируют снижение соблюдения системных промптов после 40-50 сообщений, игнорируя правила форматирования и забывая ограничения. Проблема возникает из-за конкуренции системных промптов с историей диалога за внимание в контекстном окне.

Lovable предоставляет 24-часовой бесплатный доступ с $350 кредитов для партнеров в честь Международного женского дня.
Lovable предлагает бесплатный доступ к платформе на 24 часа, плюс $100 в токенах Claude API от Anthropic и $250 в кредитах на комиссии Stripe. Предложение действует до 9 марта, 00:59.

Подписки на ИИ нуждаются в надежном счетчике: призыв к прозрачности услуг
В посте на Reddit утверждается, что подписки на ИИ должны предоставлять базовую квитанцию об услуге, показывающую, какая модель фактически использовалась, затраченные усилия на рассуждение, обработку контекста и управление нагрузкой, проводя параллели с нормами контроля мер и весов.