Nemotron 3 Super 120B: 1M tokens en M1 Ultra

Prueba Local de Contexto de 1 Millón de Tokens con Nemotron 3 Super

Un usuario de Reddit realizó una prueba de referencia para evaluar la viabilidad de procesar contextos de 1 millón de tokens localmente usando Nemotron 3 Super 120B en un sistema M1 Ultra. La prueba aprovechó la arquitectura híbrida mamba-2 del modelo, que proporciona eficiencia de memoria en longitudes de contexto aumentadas.

Detalles de Hardware y Configuración

La prueba se ejecutó en un M1 Ultra usando llama.cpp con la siguiente configuración:

Modelo: Nemotron-3-Super-120B-Q4_K.gguf (cuantización Q4_K_M)
Asignación de contexto: 1 millón de tokens completo
Uso de VRAM: Aproximadamente 90 GB
Backend: MTL,BLAS con 1 hilo
Tamaño de lote unificado: 2048
Atención flash: Habilitada (fa 1)
Capas de GPU: 99 (-ngl 99)

Comando de Referencia y Resultados

El usuario ejecutó llama-bench con este comando:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Resultados clave de rendimiento del punto de referencia:

Procesamiento de entrada (pp512) en contexto 0: 255,03 ± 0,36 tokens/segundo
Generación de tokens (tg128) en contexto 0: 26,72 ± 0,02 tokens/segundo
Procesamiento de entrada en contexto de 100.000 tokens: 184,99 ± 0,19 tokens/segundo
Generación de tokens en contexto de 100.000 tokens: 22,37 ± 0,01 tokens/segundo
Procesamiento de entrada en contexto de 150.000 tokens: 161,60 ± 0,22 tokens/segundo
Generación de tokens en contexto de 150.000 tokens: 20,58 ± 0,01 tokens/segundo
Procesamiento de entrada en contexto de 200.000 tokens: 141,87 ± 0,19 tokens/segundo

Los resultados muestran degradación del rendimiento a medida que aumenta la longitud del contexto, con la velocidad de procesamiento de entrada cayendo de 255 t/s en contexto cero a aproximadamente 142 t/s en 200.000 tokens.

Información del Sistema

La inicialización del backend Metal mostró:

Nombre de GPU: MTL0
Familia de GPU: MTLGPUFamilyApple7 (1007)
Tiene memoria unificada: verdadero
Tiene soporte bfloat: verdadero
Tamaño máximo recomendado del conjunto de trabajo: 134.217,73 MB

Esta prueba demuestra que el procesamiento local de contextos extremadamente grandes (hasta 1 millón de tokens) es técnicamente posible con hardware Apple Silicon de gama alta y modelos cuantizados, aunque con requisitos de memoria significativos y compensaciones de rendimiento a medida que se expande el contexto.

📖 Read the full source: r/LocalLLaMA

Evaluación comparativa de Nemotron 3 Super 120B con contexto de 1 millón de tokens en M1 Ultra

Prueba Local de Contexto de 1 Millón de Tokens con Nemotron 3 Super

Detalles de Hardware y Configuración

Comando de Referencia y Resultados

Información del Sistema

👀 Ver también

Extensión de Navegador Colorizadora de la Barra de Uso de Claude Construida con Código Claude

Lumia: Sistema de IA Local de Un Solo Clic con Memoria Persistente

Asistente de impuestos con IA de enfoque local, con datos personales cifrados, desarrollado sobre MCP.

El motor de juegos de rol en solitario de código abierto utiliza tres instancias de Claude para análisis, narración y dirección.