Nemotron 3 Super 120B: Benchmark de 1M Tokens no M1 Ultra

Teste Local de Contexto de 1 Milhão de Tokens com o Nemotron 3 Super

Um usuário do Reddit conduziu um teste de benchmark para avaliar a viabilidade de processar contextos de 1 milhão de tokens localmente usando o Nemotron 3 Super 120B em um sistema M1 Ultra. O teste aproveitou a arquitetura híbrida mamba-2 do modelo, que oferece eficiência de memória em comprimentos de contexto aumentados.

Detalhes de Hardware e Configuração

O teste foi executado em um M1 Ultra usando llama.cpp com a seguinte configuração:

Modelo: Nemotron-3-Super-120B-Q4_K.gguf (quantização Q4_K_M)
Alocação de contexto: Total de 1 milhão de tokens
Uso de VRAM: Aproximadamente 90 GB
Backend: MTL,BLAS com 1 thread
Tamanho de lote unificado: 2048
Atenção flash: Habilitada (fa 1)
Camadas GPU: 99 (-ngl 99)

Comando de Benchmark e Resultados

O usuário executou o llama-bench com este comando:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Principais resultados de desempenho do benchmark:

Processamento de prompt (pp512) em contexto 0: 255,03 ± 0,36 tokens/segundo
Geração de tokens (tg128) em contexto 0: 26,72 ± 0,02 tokens/segundo
Processamento de prompt em contexto de 100.000 tokens: 184,99 ± 0,19 tokens/segundo
Geração de tokens em contexto de 100.000 tokens: 22,37 ± 0,01 tokens/segundo
Processamento de prompt em contexto de 150.000 tokens: 161,60 ± 0,22 tokens/segundo
Geração de tokens em contexto de 150.000 tokens: 20,58 ± 0,01 tokens/segundo
Processamento de prompt em contexto de 200.000 tokens: 141,87 ± 0,19 tokens/segundo

Os resultados mostram degradação de desempenho à medida que o comprimento do contexto aumenta, com a velocidade de processamento de prompt caindo de 255 t/s em contexto zero para aproximadamente 142 t/s em 200.000 tokens.

Informações do Sistema

A inicialização do backend Metal mostrou:

Nome da GPU: MTL0
Família da GPU: MTLGPUFamilyApple7 (1007)
Tem memória unificada: verdadeiro
Tem suporte a bfloat: verdadeiro
Tamanho máximo recomendado do conjunto de trabalho: 134.217,73 MB

Este teste demonstra que o processamento local de contextos extremamente grandes (até 1 milhão de tokens) é tecnicamente possível com hardware Apple Silicon de alta performance e modelos quantizados, embora com requisitos de memória significativos e compensações de desempenho à medida que o contexto se expande.

📖 Read the full source: r/LocalLLaMA

Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra

Teste Local de Contexto de 1 Milhão de Tokens com o Nemotron 3 Super

Detalhes de Hardware e Configuração

Comando de Benchmark e Resultados

Informações do Sistema

👀 See Also

O Servidor MCP Tredict Permite que o Claude Crie e Envie Planos de Treino para Relógios Esportivos

OpenBridge: Controle Remoto Gratuito e de Código Aberto para Claude Code via Slack/Discord

Feiticeiro Livre Migra Histórico do ChatGPT para Projetos Claude — Lições Principais sobre Limites de Token e RAG

Aplicativo Claude Desktop Adiciona Recurso de Projetos à Interface de Colaboração