Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra

Lokaler Test mit 1 Million Token Kontext bei Nemotron 3 Super
Ein Reddit-Nutzer führte einen Benchmark-Test durch, um die Machbarkeit der lokalen Verarbeitung von Kontexten mit 1 Million Token mit Nemotron 3 Super 120B auf einem M1 Ultra System zu bewerten. Der Test nutzte die hybride Mamba-2-Architektur des Modells, die bei größeren Kontextlängen eine speichereffiziente Verarbeitung ermöglicht.
Hardware- und Setup-Details
Der Test wurde auf einem M1 Ultra mit llama.cpp und folgender Konfiguration durchgeführt:
- Modell: Nemotron-3-Super-120B-Q4_K.gguf (Q4_K_M Quantisierung)
- Kontextzuweisung: Volle 1 Million Token
- VRAM-Verbrauch: Etwa 90 GB
- Backend: MTL,BLAS mit 1 Thread
- Vereinheitlichte Batch-Größe: 2048
- Flash Attention: Aktiviert (fa 1)
- GPU-Layer: 99 (-ngl 99)
Benchmark-Befehl und Ergebnisse
Der Nutzer führte llama-bench mit folgendem Befehl aus:
llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000Wichtige Leistungsergebnisse aus dem Benchmark:
- Prompt-Verarbeitung (pp512) bei 0 Kontext: 255,03 ± 0,36 Token/Sekunde
- Token-Generierung (tg128) bei 0 Kontext: 26,72 ± 0,02 Token/Sekunde
- Prompt-Verarbeitung bei 100.000 Token Kontext: 184,99 ± 0,19 Token/Sekunde
- Token-Generierung bei 100.000 Token Kontext: 22,37 ± 0,01 Token/Sekunde
- Prompt-Verarbeitung bei 150.000 Token Kontext: 161,60 ± 0,22 Token/Sekunde
- Token-Generierung bei 150.000 Token Kontext: 20,58 ± 0,01 Token/Sekunde
- Prompt-Verarbeitung bei 200.000 Token Kontext: 141,87 ± 0,19 Token/Sekunde
Die Ergebnisse zeigen einen Leistungsabfall mit zunehmender Kontextlänge, wobei die Prompt-Verarbeitungsgeschwindigkeit von 255 t/s ohne Kontext auf etwa 142 t/s bei 200.000 Token sinkt.
Systeminformationen
Die Initialisierung des Metal-Backends zeigte:
- GPU-Name: MTL0
- GPU-Familie: MTLGPUFamilyApple7 (1007)
- Hat vereinheitlichten Speicher: true
- Hat bfloat-Unterstützung: true
- Empfohlene maximale Arbeitsdatensatzgröße: 134.217,73 MB
Dieser Test zeigt, dass die lokale Verarbeitung extrem großer Kontexte (bis zu 1 Million Token) mit High-End-Apple-Silicon-Hardware und quantisierten Modellen technisch möglich ist, allerdings mit erheblichen Speicheranforderungen und Leistungseinbußen bei wachsendem Kontext.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Anchormd: Ein Werkzeug zur Verwaltung von Kontext über Claude AI-Sitzungen hinweg
Anchormd ist ein Open-Source-Tool, das den Kontextverlust in Claude-AI-Sitzungen behebt, indem es kuratierte Markdown-Pläne in einen durchsuchbaren Wissensgraphen indexiert. Es ermöglicht Agenten, Projektübersichten zu Sitzungsbeginn zu laden und bei Bedarf nach spezifischen Details zu suchen.

Effizientes Token-Management mit Open-Source-MCP-Servern: Pare
Pare MCP-Server reduzieren Token-Abfälle und verbessern die Effizienz, wenn KI-Coding-Agenten Entwicklertools nutzen, indem sie strukturierte Ausgaben bereitstellen.

EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen
Forscher entwickelten EsoLang-Bench, einen Programmier-Benchmark, der exotische Programmiersprachen wie Brainfuck und Whitespace nutzt, um zu testen, ob LLMs tatsächlich logisch denken oder nur Muster erkennen. Das beste Ergebnis über GPT-5.2, O4-mini, Gemini, Qwen und Kimi lag bei 11,2 %.

ClawControl iOS-Client für selbst gehostete OpenClaw-Server veröffentlicht
ClawControl v1.50 ist jetzt auf iOS verfügbar als datenschutzorientierter mobiler Client für selbst gehostete OpenClaw/Claw-Server. Die Open-Source-App ermöglicht Echtzeit-Chat mit Streaming-Antworten, Agentenverwaltung und Sitzungskontrolle von mobilen Geräten aus.