Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra

Teste Local de Contexto de 1 Milhão de Tokens com o Nemotron 3 Super
Um usuário do Reddit conduziu um teste de benchmark para avaliar a viabilidade de processar contextos de 1 milhão de tokens localmente usando o Nemotron 3 Super 120B em um sistema M1 Ultra. O teste aproveitou a arquitetura híbrida mamba-2 do modelo, que oferece eficiência de memória em comprimentos de contexto aumentados.
Detalhes de Hardware e Configuração
O teste foi executado em um M1 Ultra usando llama.cpp com a seguinte configuração:
- Modelo: Nemotron-3-Super-120B-Q4_K.gguf (quantização Q4_K_M)
- Alocação de contexto: Total de 1 milhão de tokens
- Uso de VRAM: Aproximadamente 90 GB
- Backend: MTL,BLAS com 1 thread
- Tamanho de lote unificado: 2048
- Atenção flash: Habilitada (fa 1)
- Camadas GPU: 99 (-ngl 99)
Comando de Benchmark e Resultados
O usuário executou o llama-bench com este comando:
llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000Principais resultados de desempenho do benchmark:
- Processamento de prompt (pp512) em contexto 0: 255,03 ± 0,36 tokens/segundo
- Geração de tokens (tg128) em contexto 0: 26,72 ± 0,02 tokens/segundo
- Processamento de prompt em contexto de 100.000 tokens: 184,99 ± 0,19 tokens/segundo
- Geração de tokens em contexto de 100.000 tokens: 22,37 ± 0,01 tokens/segundo
- Processamento de prompt em contexto de 150.000 tokens: 161,60 ± 0,22 tokens/segundo
- Geração de tokens em contexto de 150.000 tokens: 20,58 ± 0,01 tokens/segundo
- Processamento de prompt em contexto de 200.000 tokens: 141,87 ± 0,19 tokens/segundo
Os resultados mostram degradação de desempenho à medida que o comprimento do contexto aumenta, com a velocidade de processamento de prompt caindo de 255 t/s em contexto zero para aproximadamente 142 t/s em 200.000 tokens.
Informações do Sistema
A inicialização do backend Metal mostrou:
- Nome da GPU: MTL0
- Família da GPU: MTLGPUFamilyApple7 (1007)
- Tem memória unificada: verdadeiro
- Tem suporte a bfloat: verdadeiro
- Tamanho máximo recomendado do conjunto de trabalho: 134.217,73 MB
Este teste demonstra que o processamento local de contextos extremamente grandes (até 1 milhão de tokens) é tecnicamente possível com hardware Apple Silicon de alta performance e modelos quantizados, embora com requisitos de memória significativos e compensações de desempenho à medida que o contexto se expande.
📖 Read the full source: r/LocalLLaMA
👀 See Also

Nelson: Um Plugin Claude Code para Coordenar Agentes de IA Como uma Frota Naval
Nelson é um plugin do Claude Code que estrutura a coordenação de agentes de IA usando princípios de frota naval, apresentando três modos de execução, um sistema de classificação de risco, monitoramento de integridade do casco e portões de ordens permanentes para prevenir antipadrões comuns.

HolyCode: Contêiner Docker para Ambientes Persistentes de Agentes de Codificação de IA
HolyCode é um contêiner Docker que fornece um ambiente de desenvolvimento persistente para agentes de IA de codificação, mantendo sessões, configurações e plugins entre reconstruções. Inclui ferramentas de navegador pré-configuradas para fluxos de trabalho de agentes e suporta Claude, OpenAI, Gemini e outros provedores através do OpenCode.

DecisionNode: CLI e Servidor MCP para Armazenamento de Decisões Semânticas
DecisionNode é um servidor CLI e MCP apenas local que armazena decisões estruturadas como JSON, as incorpora como vetores para busca semântica e as torna acessíveis em ferramentas de IA via MCP. É licenciado sob MIT e projetado para funcionar com Claude Code, Cursor, Windsurf, Antigravity e outros clientes MCP.

Explorando as Diretrizes de Código Claude: Uma Abordagem Minimalista em 65 Linhas
A extensão Claude Code encapsula princípios essenciais de codificação com IA em apenas 65 linhas de Markdown, enfatizando 'Pense Antes de Codificar'. Apesar de sua simplicidade, ganhou tração notável entre desenvolvedores.