Blackwell LLM Toolkit: NVFP4, Räder & Benchmarks für RTX Pro 6000

Ein neues Repository auf GitHub, blackwell-llm-toolkit, sammelt TensorRT-LLM-Konfigurationen, vorgebaute Räder und Benchmark-Ergebnisse für den Betrieb von LLMs auf Nvidia Blackwell GPUs (RTX Pro 6000, 5090, 5080, 5070 Ti). Der Fokus liegt auf NVFP4-Quantisierung und der Überwindung plattformspezifischer Hürden.

Hauptfunktionen

TensorRT-LLM-Konfigurationen: Enthält eine YAML-Datei (configs/trtllm/nemotron-omni-v3-sm120.yaml) mit den obskuren Startflags, die zum Ausführen von Mamba-Hybrid-Modellen auf Blackwell erforderlich sind.
LMCache-Räder: Das PyPI-Rad stürzte auf Blackwell aufgrund fehlender sm_120-Cubins ab. Das Repository bietet ein neu gebautes Rad und ein Build-Skript, getestet mit Optane SSD für KV-Cache-Auslagerung.
Forschungsdokumente: KI-generierte Deep-Dives zu Architekturunterschieden bei Nemotron Omni V3, Qwen 3.5/3.6 und Gemma 4. Beachten Sie: Qwen 3.5/3.6 sind nicht nur umbenannte Qwen3-VL – sie haben eine völlig andere Architektur.
Benchmark-Tools: rapid_bench.py führt eine Qualitätsbewertung mit 41 Prompts durch (Intelligenz, Tool-Nutzung, Kalibrierung, Orchestrierung, kreatives Schreiben). bench_harness.py misst anhaltende Dekodierung, TTFT, Prefill und Parallelität, mit einem --prompt-tokens N Modus für langen Kontext.

Benchmark-Highlights (Einzelne RTX Pro 6000 96GB, kein TP)

Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, 8k Kontext): 270 tok/s. Schnellstes getestetes Modell, verarbeitet Bild/Video/Audio+Text. Erfordert TRT-LLM v1.3.0rc13.
Nemotron-3-Nano (nur Text, NVFP4, 8k Kontext): 249 tok/s. Am besten für Tool-Calling-Agenten (10/10 bei Tools).
DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, 65k Kontext): 31 tok/s. Am besten für komplexes Denken (9/10 Intel, 10/10 Tools, 13/13 Kalibrierung).
MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, 196k Kontext): 117 tok/s. Gut für lange Gespräche.
MiniMax-M2.7 W4A16 (mit LMCache auf Optane SSD, 154k Kontext): 20-22 tok/s. Lange Kontextqualität bei W4A16.
MiniMax-M2.7 W4A16 (kurzer Kontext, ohne LMCache, 64k Kontext): 22-25 tok/s. Höchste Qualität bei kurzen Antworten (10/10 Intel).

Vollständige Ergebnisse mit TTFT, Prefill-Geschwindigkeiten, Parallelität und Bewertungswerten finden Sie in bench/results.md.

Für wen es gedacht ist

Entwickler und Forscher, die LLM-Inferenz auf Blackwell GPUs betreiben und optimierte TensorRT-LLM-Konfigurationen, vorgebaute LMCache für langen Kontext oder reale Benchmark-Daten zur Modellauswahl benötigen.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Blackwell LLM Toolkit: NVFP4-Konfigurationen, Räder und Benchmarks für TensorRT-LLM auf RTX Pro 6000

Hauptfunktionen

Benchmark-Highlights (Einzelne RTX Pro 6000 96GB, kein TP)

Für wen es gedacht ist

👀 Siehe auch

AIMEAT: Ein selbstgehostetes Protokoll für KI-Agenten, lokale LLMs und gemeinsame Fähigkeiten

ClawCall erhält dedizierte Telefonnummern: Agenten können jetzt eine Nummer für ausgehende Anrufe reservieren

HF Viewer: Visualisieren Sie jedes Hugging-Face-Modell-Diagramm sofort

Claude Code Ultracode-Modus erzeugt 70-Agenten-Pipeline für Tiefensuche