Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra

✍️ OpenClawRadar📅 Veröffentlicht: 12. März 2026🔗 Source
Benchmarking von Nemotron 3 Super 120B mit 1M Token-Kontext auf M1 Ultra
Ad

Lokaler Test mit 1 Million Token Kontext bei Nemotron 3 Super

Ein Reddit-Nutzer führte einen Benchmark-Test durch, um die Machbarkeit der lokalen Verarbeitung von Kontexten mit 1 Million Token mit Nemotron 3 Super 120B auf einem M1 Ultra System zu bewerten. Der Test nutzte die hybride Mamba-2-Architektur des Modells, die bei größeren Kontextlängen eine speichereffiziente Verarbeitung ermöglicht.

Hardware- und Setup-Details

Der Test wurde auf einem M1 Ultra mit llama.cpp und folgender Konfiguration durchgeführt:

  • Modell: Nemotron-3-Super-120B-Q4_K.gguf (Q4_K_M Quantisierung)
  • Kontextzuweisung: Volle 1 Million Token
  • VRAM-Verbrauch: Etwa 90 GB
  • Backend: MTL,BLAS mit 1 Thread
  • Vereinheitlichte Batch-Größe: 2048
  • Flash Attention: Aktiviert (fa 1)
  • GPU-Layer: 99 (-ngl 99)
Ad

Benchmark-Befehl und Ergebnisse

Der Nutzer führte llama-bench mit folgendem Befehl aus:

llama-bench -m ~/ml-models/huggingface/ggml-org/Nemotron-3-Super-120B-GGUF/Nemotron-3-Super-120B-Q4_K.gguf -fa 1 -t 1 -ngl 99 -b 2048 -ub 2048 -d 0,10000,20000,30000,40000,50000,60000,70000,80000,90000,100000,150000,200000,250000,1000000

Wichtige Leistungsergebnisse aus dem Benchmark:

  • Prompt-Verarbeitung (pp512) bei 0 Kontext: 255,03 ± 0,36 Token/Sekunde
  • Token-Generierung (tg128) bei 0 Kontext: 26,72 ± 0,02 Token/Sekunde
  • Prompt-Verarbeitung bei 100.000 Token Kontext: 184,99 ± 0,19 Token/Sekunde
  • Token-Generierung bei 100.000 Token Kontext: 22,37 ± 0,01 Token/Sekunde
  • Prompt-Verarbeitung bei 150.000 Token Kontext: 161,60 ± 0,22 Token/Sekunde
  • Token-Generierung bei 150.000 Token Kontext: 20,58 ± 0,01 Token/Sekunde
  • Prompt-Verarbeitung bei 200.000 Token Kontext: 141,87 ± 0,19 Token/Sekunde

Die Ergebnisse zeigen einen Leistungsabfall mit zunehmender Kontextlänge, wobei die Prompt-Verarbeitungsgeschwindigkeit von 255 t/s ohne Kontext auf etwa 142 t/s bei 200.000 Token sinkt.

Systeminformationen

Die Initialisierung des Metal-Backends zeigte:

  • GPU-Name: MTL0
  • GPU-Familie: MTLGPUFamilyApple7 (1007)
  • Hat vereinheitlichten Speicher: true
  • Hat bfloat-Unterstützung: true
  • Empfohlene maximale Arbeitsdatensatzgröße: 134.217,73 MB

Dieser Test zeigt, dass die lokale Verarbeitung extrem großer Kontexte (bis zu 1 Million Token) mit High-End-Apple-Silicon-Hardware und quantisierten Modellen technisch möglich ist, allerdings mit erheblichen Speicheranforderungen und Leistungseinbußen bei wachsendem Kontext.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Siehe auch

Anchormd: Ein Werkzeug zur Verwaltung von Kontext über Claude AI-Sitzungen hinweg
Werkzeuge

Anchormd: Ein Werkzeug zur Verwaltung von Kontext über Claude AI-Sitzungen hinweg

Anchormd ist ein Open-Source-Tool, das den Kontextverlust in Claude-AI-Sitzungen behebt, indem es kuratierte Markdown-Pläne in einen durchsuchbaren Wissensgraphen indexiert. Es ermöglicht Agenten, Projektübersichten zu Sitzungsbeginn zu laden und bei Bedarf nach spezifischen Details zu suchen.

OpenClawRadar
Effizientes Token-Management mit Open-Source-MCP-Servern: Pare
Werkzeuge

Effizientes Token-Management mit Open-Source-MCP-Servern: Pare

Pare MCP-Server reduzieren Token-Abfälle und verbessern die Effizienz, wenn KI-Coding-Agenten Entwicklertools nutzen, indem sie strukturierte Ausgaben bereitstellen.

OpenClawRadar
EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen
Werkzeuge

EsoLang-Bench: Ein Programmier-Benchmark, der esoterische Sprachen verwendet, um das logische Denken von LLMs zu testen

Forscher entwickelten EsoLang-Bench, einen Programmier-Benchmark, der exotische Programmiersprachen wie Brainfuck und Whitespace nutzt, um zu testen, ob LLMs tatsächlich logisch denken oder nur Muster erkennen. Das beste Ergebnis über GPT-5.2, O4-mini, Gemini, Qwen und Kimi lag bei 11,2 %.

OpenClawRadar
ClawControl iOS-Client für selbst gehostete OpenClaw-Server veröffentlicht
Werkzeuge

ClawControl iOS-Client für selbst gehostete OpenClaw-Server veröffentlicht

ClawControl v1.50 ist jetzt auf iOS verfügbar als datenschutzorientierter mobiler Client für selbst gehostete OpenClaw/Claw-Server. Die Open-Source-App ermöglicht Echtzeit-Chat mit Streaming-Antworten, Agentenverwaltung und Sitzungskontrolle von mobilen Geräten aus.

OpenClawRadar