Evaluación comparativa de Nemotron 3 Super 120B con contexto de 1 millón de tokens en M1 Ultra

✍️ OpenClawRadar📅 Publicado: 12 de marzo de 2026🔗 Source
Evaluación comparativa de Nemotron 3 Super 120B con contexto de 1 millón de tokens en M1 Ultra
Ad

Prueba Local de Contexto de 1 Millón de Tokens con Nemotron 3 Super

Un usuario de Reddit realizó una prueba de referencia para evaluar la viabilidad de procesar contextos de 1 millón de tokens localmente usando Nemotron 3 Super 120B en un sistema M1 Ultra. La prueba aprovechó la arquitectura híbrida mamba-2 del modelo, que proporciona eficiencia de memoria en longitudes de contexto aumentadas.

Detalles de Hardware y Configuración

La prueba se ejecutó en un M1 Ultra usando llama.cpp con la siguiente configuración:

  • Modelo: Nemotron-3-Super-120B-Q4_K.gguf (cuantización Q4_K_M)
  • Asignación de contexto: 1 millón de tokens completo
  • Uso de VRAM: Aproximadamente 90 GB
  • Backend: MTL,BLAS con 1 hilo
  • Tamaño de lote unificado: 2048
  • Atención flash: Habilitada (fa 1)
  • Capas de GPU: 99 (-ngl 99)

Comando de Referencia y Resultados

El usuario ejecutó llama-bench con este comando:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Resultados clave de rendimiento del punto de referencia:

  • Procesamiento de entrada (pp512) en contexto 0: 255,03 ± 0,36 tokens/segundo
  • Generación de tokens (tg128) en contexto 0: 26,72 ± 0,02 tokens/segundo
  • Procesamiento de entrada en contexto de 100.000 tokens: 184,99 ± 0,19 tokens/segundo
  • Generación de tokens en contexto de 100.000 tokens: 22,37 ± 0,01 tokens/segundo
  • Procesamiento de entrada en contexto de 150.000 tokens: 161,60 ± 0,22 tokens/segundo
  • Generación de tokens en contexto de 150.000 tokens: 20,58 ± 0,01 tokens/segundo
  • Procesamiento de entrada en contexto de 200.000 tokens: 141,87 ± 0,19 tokens/segundo

Los resultados muestran degradación del rendimiento a medida que aumenta la longitud del contexto, con la velocidad de procesamiento de entrada cayendo de 255 t/s en contexto cero a aproximadamente 142 t/s en 200.000 tokens.

Ad

Información del Sistema

La inicialización del backend Metal mostró:

  • Nombre de GPU: MTL0
  • Familia de GPU: MTLGPUFamilyApple7 (1007)
  • Tiene memoria unificada: verdadero
  • Tiene soporte bfloat: verdadero
  • Tamaño máximo recomendado del conjunto de trabajo: 134.217,73 MB

Esta prueba demuestra que el procesamiento local de contextos extremadamente grandes (hasta 1 millón de tokens) es técnicamente posible con hardware Apple Silicon de gama alta y modelos cuantizados, aunque con requisitos de memoria significativos y compensaciones de rendimiento a medida que se expande el contexto.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Ver también

Extensión de Navegador Colorizadora de la Barra de Uso de Claude Construida con Código Claude
Herramientas

Extensión de Navegador Colorizadora de la Barra de Uso de Claude Construida con Código Claude

Un desarrollador creó una extensión de navegador que recolorea las barras de uso de Claude de verde a amarillo y rojo según umbrales de porcentaje, añade una ventana emergente con datos de uso en tiempo real y permite personalizar los umbrales y colores. La extensión solo se ejecuta en la página de uso de Claude, almacena la configuración localmente y no realiza solicitudes de red externas.

OpenClawRadar
Lumia: Sistema de IA Local de Un Solo Clic con Memoria Persistente
Herramientas

Lumia: Sistema de IA Local de Un Solo Clic con Memoria Persistente

Lumia es un sistema modular que se ejecuta localmente usando Ollama y modelos locales para crear compañeros de IA persistentes con memoria episódica, memoria emocional, creencias, deseos, identidad, modelado de relaciones y ciclos de reflexión.

OpenClawRadar
Asistente de impuestos con IA de enfoque local, con datos personales cifrados, desarrollado sobre MCP.
Herramientas

Asistente de impuestos con IA de enfoque local, con datos personales cifrados, desarrollado sobre MCP.

Un desarrollador creó una extensión para declaración de impuestos para Crow que cifra toda la información personal identificable (PII) con AES-256-GCM y funciona con cualquier cliente compatible con MCP, incluyendo Claude, ChatGPT, Gemini o modelos locales a través de Ollama. El sistema maneja cálculos de 1040, Anexo 1, HSA (8889), créditos educativos (8863), trabajo por cuenta propia (Anexo C/SE) y ganancias de capital (Anexo D) localmente.

OpenClawRadar
El motor de juegos de rol en solitario de código abierto utiliza tres instancias de Claude para análisis, narración y dirección.
Herramientas

El motor de juegos de rol en solitario de código abierto utiliza tres instancias de Claude para análisis, narración y dirección.

EdgeTales es un motor de RPG en solitario de código abierto basado en texto donde la mecánica de dados determina los resultados y la IA Claude genera prosa atmosférica. El sistema utiliza tres instancias de Claude en un pipeline: Cerebro (Haiku) para analizar la entrada en JSON, Narrador (Sonnet) para escribir la prosa y Director (Haiku) para el análisis asíncrono de escenas.

OpenClawRadar