Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra

✍️ OpenClawRadar📅 Publicado: March 12, 2026🔗 Source
Benchmarking do Nemotron 3 Super 120B com contexto de 1 milhão de tokens no M1 Ultra
Ad

Teste Local de Contexto de 1 Milhão de Tokens com o Nemotron 3 Super

Um usuário do Reddit conduziu um teste de benchmark para avaliar a viabilidade de processar contextos de 1 milhão de tokens localmente usando o Nemotron 3 Super 120B em um sistema M1 Ultra. O teste aproveitou a arquitetura híbrida mamba-2 do modelo, que oferece eficiência de memória em comprimentos de contexto aumentados.

Detalhes de Hardware e Configuração

O teste foi executado em um M1 Ultra usando llama.cpp com a seguinte configuração:

  • Modelo: Nemotron-3-Super-120B-Q4_K.gguf (quantização Q4_K_M)
  • Alocação de contexto: Total de 1 milhão de tokens
  • Uso de VRAM: Aproximadamente 90 GB
  • Backend: MTL,BLAS com 1 thread
  • Tamanho de lote unificado: 2048
  • Atenção flash: Habilitada (fa 1)
  • Camadas GPU: 99 (-ngl 99)

Comando de Benchmark e Resultados

O usuário executou o llama-bench com este comando:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Principais resultados de desempenho do benchmark:

  • Processamento de prompt (pp512) em contexto 0: 255,03 ± 0,36 tokens/segundo
  • Geração de tokens (tg128) em contexto 0: 26,72 ± 0,02 tokens/segundo
  • Processamento de prompt em contexto de 100.000 tokens: 184,99 ± 0,19 tokens/segundo
  • Geração de tokens em contexto de 100.000 tokens: 22,37 ± 0,01 tokens/segundo
  • Processamento de prompt em contexto de 150.000 tokens: 161,60 ± 0,22 tokens/segundo
  • Geração de tokens em contexto de 150.000 tokens: 20,58 ± 0,01 tokens/segundo
  • Processamento de prompt em contexto de 200.000 tokens: 141,87 ± 0,19 tokens/segundo

Os resultados mostram degradação de desempenho à medida que o comprimento do contexto aumenta, com a velocidade de processamento de prompt caindo de 255 t/s em contexto zero para aproximadamente 142 t/s em 200.000 tokens.

Ad

Informações do Sistema

A inicialização do backend Metal mostrou:

  • Nome da GPU: MTL0
  • Família da GPU: MTLGPUFamilyApple7 (1007)
  • Tem memória unificada: verdadeiro
  • Tem suporte a bfloat: verdadeiro
  • Tamanho máximo recomendado do conjunto de trabalho: 134.217,73 MB

Este teste demonstra que o processamento local de contextos extremamente grandes (até 1 milhão de tokens) é tecnicamente possível com hardware Apple Silicon de alta performance e modelos quantizados, embora com requisitos de memória significativos e compensações de desempenho à medida que o contexto se expande.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

Nelson: Um Plugin Claude Code para Coordenar Agentes de IA Como uma Frota Naval
Tools

Nelson: Um Plugin Claude Code para Coordenar Agentes de IA Como uma Frota Naval

Nelson é um plugin do Claude Code que estrutura a coordenação de agentes de IA usando princípios de frota naval, apresentando três modos de execução, um sistema de classificação de risco, monitoramento de integridade do casco e portões de ordens permanentes para prevenir antipadrões comuns.

OpenClawRadar
HolyCode: Contêiner Docker para Ambientes Persistentes de Agentes de Codificação de IA
Tools

HolyCode: Contêiner Docker para Ambientes Persistentes de Agentes de Codificação de IA

HolyCode é um contêiner Docker que fornece um ambiente de desenvolvimento persistente para agentes de IA de codificação, mantendo sessões, configurações e plugins entre reconstruções. Inclui ferramentas de navegador pré-configuradas para fluxos de trabalho de agentes e suporta Claude, OpenAI, Gemini e outros provedores através do OpenCode.

OpenClawRadar
DecisionNode: CLI e Servidor MCP para Armazenamento de Decisões Semânticas
Tools

DecisionNode: CLI e Servidor MCP para Armazenamento de Decisões Semânticas

DecisionNode é um servidor CLI e MCP apenas local que armazena decisões estruturadas como JSON, as incorpora como vetores para busca semântica e as torna acessíveis em ferramentas de IA via MCP. É licenciado sob MIT e projetado para funcionar com Claude Code, Cursor, Windsurf, Antigravity e outros clientes MCP.

OpenClawRadar
Explorando as Diretrizes de Código Claude: Uma Abordagem Minimalista em 65 Linhas
Tools

Explorando as Diretrizes de Código Claude: Uma Abordagem Minimalista em 65 Linhas

A extensão Claude Code encapsula princípios essenciais de codificação com IA em apenas 65 linhas de Markdown, enfatizando 'Pense Antes de Codificar'. Apesar de sua simplicidade, ganhou tração notável entre desenvolvedores.

OpenClawRadar