Nemotron 3 Super 120B Benchmark: 1M Token Kontext auf M1 Ultra

Lokaler Test mit 1 Million Token Kontext bei Nemotron 3 Super

Ein Reddit-Nutzer führte einen Benchmark-Test durch, um die Machbarkeit der lokalen Verarbeitung von Kontexten mit 1 Million Token mit Nemotron 3 Super 120B auf einem M1 Ultra System zu bewerten. Der Test nutzte die hybride Mamba-2-Architektur des Modells, die bei größeren Kontextlängen eine speichereffiziente Verarbeitung ermöglicht.

Hardware- und Setup-Details

Der Test wurde auf einem M1 Ultra mit llama.cpp und folgender Konfiguration durchgeführt:

Modell: Nemotron-3-Super-120B-Q4_K.gguf (Q4_K_M Quantisierung)
Kontextzuweisung: Volle 1 Million Token
VRAM-Verbrauch: Etwa 90 GB
Backend: MTL,BLAS mit 1 Thread
Vereinheitlichte Batch-Größe: 2048
Flash Attention: Aktiviert (fa 1)
GPU-Layer: 99 (-ngl 99)

Benchmark-Befehl und Ergebnisse

Der Nutzer führte llama-bench mit folgendem Befehl aus:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Wichtige Leistungsergebnisse aus dem Benchmark:

Prompt-Verarbeitung (pp512) bei 0 Kontext: 255,03 ± 0,36 Token/Sekunde
Token-Generierung (tg128) bei 0 Kontext: 26,72 ± 0,02 Token/Sekunde
Prompt-Verarbeitung bei 100.000 Token Kontext: 184,99 ± 0,19 Token/Sekunde
Token-Generierung bei 100.000 Token Kontext: 22,37 ± 0,01 Token/Sekunde
Prompt-Verarbeitung bei 150.000 Token Kontext: 161,60 ± 0,22 Token/Sekunde
Token-Generierung bei 150.000 Token Kontext: 20,58 ± 0,01 Token/Sekunde
Prompt-Verarbeitung bei 200.000 Token Kontext: 141,87 ± 0,19 Token/Sekunde

Die Ergebnisse zeigen einen Leistungsabfall mit zunehmender Kontextlänge, wobei die Prompt-Verarbeitungsgeschwindigkeit von 255 t/s ohne Kontext auf etwa 142 t/s bei 200.000 Token sinkt.

Systeminformationen

Die Initialisierung des Metal-Backends zeigte:

GPU-Name: MTL0
GPU-Familie: MTLGPUFamilyApple7 (1007)
Hat vereinheitlichten Speicher: true
Hat bfloat-Unterstützung: true
Empfohlene maximale Arbeitsdatensatzgröße: 134.217,73 MB

Dieser Test zeigt, dass die lokale Verarbeitung extrem großer Kontexte (bis zu 1 Million Token) mit High-End-Apple-Silicon-Hardware und quantisierten Modellen technisch möglich ist, allerdings mit erheblichen Speicheranforderungen und Leistungseinbußen bei wachsendem Kontext.

📖 Read the full source: r/LocalLLaMA

Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra

Lokaler Test mit 1 Million Token Kontext bei Nemotron 3 Super

Hardware- und Setup-Details

Benchmark-Befehl und Ergebnisse

Systeminformationen

👀 Siehe auch

Anchormd: Ein Werkzeug zur Verwaltung von Kontext über Claude AI-Sitzungen hinweg

Effizientes Token-Management mit Open-Source-MCP-Servern: Pare

EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen

ClawControl iOS-Client für selbst gehostete OpenClaw-Server veröffentlicht