Бенчмаркинг Nemotron 3 Super 120B с контекстом в 1 миллион токенов на M1 Ultra.

✍️ OpenClawRadar📅 Опубликовано: 12 марта 2026 г.🔗 Source
Бенчмаркинг Nemotron 3 Super 120B с контекстом в 1 миллион токенов на M1 Ultra.
Ad

Локальное тестирование контекста в 1 миллион токенов с Nemotron 3 Super

Пользователь Reddit провёл бенчмарк-тест, чтобы оценить возможность локальной обработки контекста в 1 миллион токенов с использованием Nemotron 3 Super 120B на системе M1 Ultra. Тест использовал гибридную архитектуру mamba-2 модели, которая обеспечивает эффективность использования памяти при увеличенных длинах контекста.

Детали аппаратного обеспечения и настройки

Тест проводился на M1 Ultra с использованием llama.cpp со следующей конфигурацией:

  • Модель: Nemotron-3-Super-120B-Q4_K.gguf (квантование Q4_K_M)
  • Выделение контекста: Полные 1 миллион токенов
  • Использование видеопамяти: Примерно 90 ГБ
  • Бэкенд: MTL,BLAS с 1 потоком
  • Единый размер батча: 2048
  • Flash attention: Включён (fa 1)
  • GPU слои: 99 (-ngl 99)

Команда бенчмарка и результаты

Пользователь запустил llama-bench с этой командой:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Ключевые результаты производительности из бенчмарка:

  • Обработка промпта (pp512) при контексте 0: 255,03 ± 0,36 токенов/секунду
  • Генерация токенов (tg128) при контексте 0: 26,72 ± 0,02 токенов/секунду
  • Обработка промпта при контексте 100 000 токенов: 184,99 ± 0,19 токенов/секунду
  • Генерация токенов при контексте 100 000 токенов: 22,37 ± 0,01 токенов/секунду
  • Обработка промпта при контексте 150 000 токенов: 161,60 ± 0,22 токенов/секунду
  • Генерация токенов при контексте 150 000 токенов: 20,58 ± 0,01 токенов/секунду
  • Обработка промпта при контексте 200 000 токенов: 141,87 ± 0,19 токенов/секунду

Результаты показывают снижение производительности по мере увеличения длины контекста, при этом скорость обработки промпта падает с 255 т/с при нулевом контексте до примерно 142 т/с при 200 000 токенах.

Ad

Информация о системе

Инициализация Metal бэкенда показала:

  • Название GPU: MTL0
  • Семейство GPU: MTLGPUFamilyApple7 (1007)
  • Имеет унифицированную память: true
  • Поддерживает bfloat: true
  • Рекомендуемый максимальный размер рабочего набора: 134 217,73 МБ

Этот тест демонстрирует, что локальная обработка чрезвычайно больших контекстов (до 1 миллиона токенов) технически возможна с использованием высокопроизводительного аппаратного обеспечения Apple Silicon и квантованных моделей, хотя и требует значительных ресурсов памяти и приводит к компромиссам в производительности по мере расширения контекста.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Codebase Memory MCP: Графовое исследование кода для Claude Code
Инструменты

Codebase Memory MCP: Графовое исследование кода для Claude Code

Разработчик создал MCP-сервер, который индексирует кодовые базы в постоянный граф знаний с использованием Tree-sitter и SQLite, сокращая использование токенов в среднем в 20 раз для структурных запросов, таких как трассировка вызовов и обнаружение мёртвого кода.

OpenClawRadar
Сервер навыков OpenClaw для анализа и торговли на индийском рынке
Инструменты

Сервер навыков OpenClaw для анализа и торговли на индийском рынке

Открытый торговый терминал для индийских рынков был интегрирован в качестве сервера навыков OpenClaw, что позволяет агентам получать рыночные данные и проводить многогентный анализ через HTTP. Система предоставляет структурированные торговые планы с ценами входа, стоп-лоссами и целями для трех профилей риска.

OpenClawRadar
Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ
Инструменты

Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ

Bifrost — это открытый шлюз для LLM на основе Go, который обеспечивает автоматическое переключение между провайдерами, ограничения бюджета для отклонения запросов, аудит-логирование и хуки для оценки. Бенчмарки показывают, что он примерно в 50 раз быстрее, чем LiteLLM при высокой нагрузке.

OpenClawRadar
Плагин OpenClaw Context Meter отображает процент использования токена Telegram.
Инструменты

Плагин OpenClaw Context Meter отображает процент использования токена Telegram.

Новый плагин OpenClaw отображает процент использования токенов после каждого ответа Telegram-бота, показывая значения вроде '45k / 200k (22%)' и обнаруживая события сжатия контекста. Плагин избегает проблем с нехваткой памяти, используя жёстко заданные размеры контекстных окон вместо execSync.

OpenClawRadar