Тест Nemotron 3 Super 120B: 1 млн контекст на M1 Ultra

Локальное тестирование контекста в 1 миллион токенов с Nemotron 3 Super

Пользователь Reddit провёл бенчмарк-тест, чтобы оценить возможность локальной обработки контекста в 1 миллион токенов с использованием Nemotron 3 Super 120B на системе M1 Ultra. Тест использовал гибридную архитектуру mamba-2 модели, которая обеспечивает эффективность использования памяти при увеличенных длинах контекста.

Детали аппаратного обеспечения и настройки

Тест проводился на M1 Ultra с использованием llama.cpp со следующей конфигурацией:

Модель: Nemotron-3-Super-120B-Q4_K.gguf (квантование Q4_K_M)
Выделение контекста: Полные 1 миллион токенов
Использование видеопамяти: Примерно 90 ГБ
Бэкенд: MTL,BLAS с 1 потоком
Единый размер батча: 2048
Flash attention: Включён (fa 1)
GPU слои: 99 (-ngl 99)

Команда бенчмарка и результаты

Пользователь запустил llama-bench с этой командой:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Ключевые результаты производительности из бенчмарка:

Обработка промпта (pp512) при контексте 0: 255,03 ± 0,36 токенов/секунду
Генерация токенов (tg128) при контексте 0: 26,72 ± 0,02 токенов/секунду
Обработка промпта при контексте 100 000 токенов: 184,99 ± 0,19 токенов/секунду
Генерация токенов при контексте 100 000 токенов: 22,37 ± 0,01 токенов/секунду
Обработка промпта при контексте 150 000 токенов: 161,60 ± 0,22 токенов/секунду
Генерация токенов при контексте 150 000 токенов: 20,58 ± 0,01 токенов/секунду
Обработка промпта при контексте 200 000 токенов: 141,87 ± 0,19 токенов/секунду

Результаты показывают снижение производительности по мере увеличения длины контекста, при этом скорость обработки промпта падает с 255 т/с при нулевом контексте до примерно 142 т/с при 200 000 токенах.

Информация о системе

Инициализация Metal бэкенда показала:

Название GPU: MTL0
Семейство GPU: MTLGPUFamilyApple7 (1007)
Имеет унифицированную память: true
Поддерживает bfloat: true
Рекомендуемый максимальный размер рабочего набора: 134 217,73 МБ

Этот тест демонстрирует, что локальная обработка чрезвычайно больших контекстов (до 1 миллиона токенов) технически возможна с использованием высокопроизводительного аппаратного обеспечения Apple Silicon и квантованных моделей, хотя и требует значительных ресурсов памяти и приводит к компромиссам в производительности по мере расширения контекста.

📖 Read the full source: r/LocalLLaMA

Бенчмаркинг Nemotron 3 Super 120B с контекстом в 1 миллион токенов на M1 Ultra.

Локальное тестирование контекста в 1 миллион токенов с Nemotron 3 Super

Детали аппаратного обеспечения и настройки

Команда бенчмарка и результаты

Информация о системе

👀 Смотрите также

Codebase Memory MCP: Графовое исследование кода для Claude Code

Сервер навыков OpenClaw для анализа и торговли на индийском рынке

Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ

Плагин OpenClaw Context Meter отображает процент использования токена Telegram.