Бенчмаркинг Nemotron 3 Super 120B с контекстом в 1 миллион токенов на M1 Ultra.

Локальное тестирование контекста в 1 миллион токенов с Nemotron 3 Super
Пользователь Reddit провёл бенчмарк-тест, чтобы оценить возможность локальной обработки контекста в 1 миллион токенов с использованием Nemotron 3 Super 120B на системе M1 Ultra. Тест использовал гибридную архитектуру mamba-2 модели, которая обеспечивает эффективность использования памяти при увеличенных длинах контекста.
Детали аппаратного обеспечения и настройки
Тест проводился на M1 Ultra с использованием llama.cpp со следующей конфигурацией:
- Модель: Nemotron-3-Super-120B-Q4_K.gguf (квантование Q4_K_M)
- Выделение контекста: Полные 1 миллион токенов
- Использование видеопамяти: Примерно 90 ГБ
- Бэкенд: MTL,BLAS с 1 потоком
- Единый размер батча: 2048
- Flash attention: Включён (fa 1)
- GPU слои: 99 (-ngl 99)
Команда бенчмарка и результаты
Пользователь запустил llama-bench с этой командой:
llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000Ключевые результаты производительности из бенчмарка:
- Обработка промпта (pp512) при контексте 0: 255,03 ± 0,36 токенов/секунду
- Генерация токенов (tg128) при контексте 0: 26,72 ± 0,02 токенов/секунду
- Обработка промпта при контексте 100 000 токенов: 184,99 ± 0,19 токенов/секунду
- Генерация токенов при контексте 100 000 токенов: 22,37 ± 0,01 токенов/секунду
- Обработка промпта при контексте 150 000 токенов: 161,60 ± 0,22 токенов/секунду
- Генерация токенов при контексте 150 000 токенов: 20,58 ± 0,01 токенов/секунду
- Обработка промпта при контексте 200 000 токенов: 141,87 ± 0,19 токенов/секунду
Результаты показывают снижение производительности по мере увеличения длины контекста, при этом скорость обработки промпта падает с 255 т/с при нулевом контексте до примерно 142 т/с при 200 000 токенах.
Информация о системе
Инициализация Metal бэкенда показала:
- Название GPU: MTL0
- Семейство GPU: MTLGPUFamilyApple7 (1007)
- Имеет унифицированную память: true
- Поддерживает bfloat: true
- Рекомендуемый максимальный размер рабочего набора: 134 217,73 МБ
Этот тест демонстрирует, что локальная обработка чрезвычайно больших контекстов (до 1 миллиона токенов) технически возможна с использованием высокопроизводительного аппаратного обеспечения Apple Silicon и квантованных моделей, хотя и требует значительных ресурсов памяти и приводит к компромиссам в производительности по мере расширения контекста.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Codebase Memory MCP: Графовое исследование кода для Claude Code
Разработчик создал MCP-сервер, который индексирует кодовые базы в постоянный граф знаний с использованием Tree-sitter и SQLite, сокращая использование токенов в среднем в 20 раз для структурных запросов, таких как трассировка вызовов и обнаружение мёртвого кода.

Сервер навыков OpenClaw для анализа и торговли на индийском рынке
Открытый торговый терминал для индийских рынков был интегрирован в качестве сервера навыков OpenClaw, что позволяет агентам получать рыночные данные и проводить многогентный анализ через HTTP. Система предоставляет структурированные торговые планы с ценами входа, стоп-лоссами и целями для трех профилей риска.

Bifrost AI Gateway: Инструмент с открытым исходным кодом устраняет пробелы в инфраструктуре ИИ
Bifrost — это открытый шлюз для LLM на основе Go, который обеспечивает автоматическое переключение между провайдерами, ограничения бюджета для отклонения запросов, аудит-логирование и хуки для оценки. Бенчмарки показывают, что он примерно в 50 раз быстрее, чем LiteLLM при высокой нагрузке.

Плагин OpenClaw Context Meter отображает процент использования токена Telegram.
Новый плагин OpenClaw отображает процент использования токенов после каждого ответа Telegram-бота, показывая значения вроде '45k / 200k (22%)' и обнаруживая события сжатия контекста. Плагин избегает проблем с нехваткой памяти, используя жёстко заданные размеры контекстных окон вместо execSync.