Evaluación comparativa de Nemotron 3 Super 120B con contexto de 1 millón de tokens en M1 Ultra

Prueba Local de Contexto de 1 Millón de Tokens con Nemotron 3 Super
Un usuario de Reddit realizó una prueba de referencia para evaluar la viabilidad de procesar contextos de 1 millón de tokens localmente usando Nemotron 3 Super 120B en un sistema M1 Ultra. La prueba aprovechó la arquitectura híbrida mamba-2 del modelo, que proporciona eficiencia de memoria en longitudes de contexto aumentadas.
Detalles de Hardware y Configuración
La prueba se ejecutó en un M1 Ultra usando llama.cpp con la siguiente configuración:
- Modelo: Nemotron-3-Super-120B-Q4_K.gguf (cuantización Q4_K_M)
- Asignación de contexto: 1 millón de tokens completo
- Uso de VRAM: Aproximadamente 90 GB
- Backend: MTL,BLAS con 1 hilo
- Tamaño de lote unificado: 2048
- Atención flash: Habilitada (fa 1)
- Capas de GPU: 99 (-ngl 99)
Comando de Referencia y Resultados
El usuario ejecutó llama-bench con este comando:
llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000Resultados clave de rendimiento del punto de referencia:
- Procesamiento de entrada (pp512) en contexto 0: 255,03 ± 0,36 tokens/segundo
- Generación de tokens (tg128) en contexto 0: 26,72 ± 0,02 tokens/segundo
- Procesamiento de entrada en contexto de 100.000 tokens: 184,99 ± 0,19 tokens/segundo
- Generación de tokens en contexto de 100.000 tokens: 22,37 ± 0,01 tokens/segundo
- Procesamiento de entrada en contexto de 150.000 tokens: 161,60 ± 0,22 tokens/segundo
- Generación de tokens en contexto de 150.000 tokens: 20,58 ± 0,01 tokens/segundo
- Procesamiento de entrada en contexto de 200.000 tokens: 141,87 ± 0,19 tokens/segundo
Los resultados muestran degradación del rendimiento a medida que aumenta la longitud del contexto, con la velocidad de procesamiento de entrada cayendo de 255 t/s en contexto cero a aproximadamente 142 t/s en 200.000 tokens.
Información del Sistema
La inicialización del backend Metal mostró:
- Nombre de GPU: MTL0
- Familia de GPU: MTLGPUFamilyApple7 (1007)
- Tiene memoria unificada: verdadero
- Tiene soporte bfloat: verdadero
- Tamaño máximo recomendado del conjunto de trabajo: 134.217,73 MB
Esta prueba demuestra que el procesamiento local de contextos extremadamente grandes (hasta 1 millón de tokens) es técnicamente posible con hardware Apple Silicon de gama alta y modelos cuantizados, aunque con requisitos de memoria significativos y compensaciones de rendimiento a medida que se expande el contexto.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Presentamos OneTool MCP: una herramienta multiusos de código abierto para desarrolladores.
OneTool MCP, construido con Claude AI, ofrece a los desarrolladores más de 100 herramientas para tareas como búsquedas web, actualizaciones de bibliotecas y gestión de archivos sin impuestos sobre herramientas ni problemas de descontextualización.

La extensión Claude Toolbox agrega marcadores a nivel de mensaje y búsqueda de texto completo
Claude Toolbox es una extensión de Chrome que permite marcar mensajes individuales, buscar en todo el texto de las conversaciones y exportar como TXT o JSON. El nivel gratuito cubre 2 conversaciones; el pago cuesta $5 al mes o $49 de por vida.

Construyendo un Lenguaje de Programación con Claude Code: El Experimento Cutlet
Ankur Sethi construyó un lenguaje de programación completo llamado Cutlet usando Claude Code durante cuatro semanas, con la IA generando cada línea de código mientras él se enfocaba en barreras de seguridad y pruebas. El lenguaje cuenta con tipado dinámico, operaciones vectorizadas y un REPL, ejecutándose en macOS y Linux.

Desarrollador construye marco de IA con 17 principios biológicos usando Claude Code
Un desarrollador creó un marco de IA llamado Cognitive Sparks implementando 17 principios biológicos como disparo por umbral y plasticidad hebbiana, basado en el libro de 1999 'Sparks of Genius'. Todo el proyecto—22 documentos de diseño y 3,300 líneas de código—fue construido en un día usando Claude Code, sin código escrito por humanos.