Blackwell LLM Toolkit: NVFP4-Konfigurationen, Räder und Benchmarks für TensorRT-LLM auf RTX Pro 6000

Ein neues Repository auf GitHub, blackwell-llm-toolkit, sammelt TensorRT-LLM-Konfigurationen, vorgebaute Räder und Benchmark-Ergebnisse für den Betrieb von LLMs auf Nvidia Blackwell GPUs (RTX Pro 6000, 5090, 5080, 5070 Ti). Der Fokus liegt auf NVFP4-Quantisierung und der Überwindung plattformspezifischer Hürden.
Hauptfunktionen
- TensorRT-LLM-Konfigurationen: Enthält eine YAML-Datei (
configs/trtllm/nemotron-omni-v3-sm120.yaml) mit den obskuren Startflags, die zum Ausführen von Mamba-Hybrid-Modellen auf Blackwell erforderlich sind. - LMCache-Räder: Das PyPI-Rad stürzte auf Blackwell aufgrund fehlender sm_120-Cubins ab. Das Repository bietet ein neu gebautes Rad und ein Build-Skript, getestet mit Optane SSD für KV-Cache-Auslagerung.
- Forschungsdokumente: KI-generierte Deep-Dives zu Architekturunterschieden bei Nemotron Omni V3, Qwen 3.5/3.6 und Gemma 4. Beachten Sie: Qwen 3.5/3.6 sind nicht nur umbenannte Qwen3-VL – sie haben eine völlig andere Architektur.
- Benchmark-Tools:
rapid_bench.pyführt eine Qualitätsbewertung mit 41 Prompts durch (Intelligenz, Tool-Nutzung, Kalibrierung, Orchestrierung, kreatives Schreiben).bench_harness.pymisst anhaltende Dekodierung, TTFT, Prefill und Parallelität, mit einem--prompt-tokens NModus für langen Kontext.
Benchmark-Highlights (Einzelne RTX Pro 6000 96GB, kein TP)
- Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, 8k Kontext): 270 tok/s. Schnellstes getestetes Modell, verarbeitet Bild/Video/Audio+Text. Erfordert TRT-LLM v1.3.0rc13.
- Nemotron-3-Nano (nur Text, NVFP4, 8k Kontext): 249 tok/s. Am besten für Tool-Calling-Agenten (10/10 bei Tools).
- DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, 65k Kontext): 31 tok/s. Am besten für komplexes Denken (9/10 Intel, 10/10 Tools, 13/13 Kalibrierung).
- MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, 196k Kontext): 117 tok/s. Gut für lange Gespräche.
- MiniMax-M2.7 W4A16 (mit LMCache auf Optane SSD, 154k Kontext): 20-22 tok/s. Lange Kontextqualität bei W4A16.
- MiniMax-M2.7 W4A16 (kurzer Kontext, ohne LMCache, 64k Kontext): 22-25 tok/s. Höchste Qualität bei kurzen Antworten (10/10 Intel).
Vollständige Ergebnisse mit TTFT, Prefill-Geschwindigkeiten, Parallelität und Bewertungswerten finden Sie in bench/results.md.
Für wen es gedacht ist
Entwickler und Forscher, die LLM-Inferenz auf Blackwell GPUs betreiben und optimierte TensorRT-LLM-Konfigurationen, vorgebaute LMCache für langen Kontext oder reale Benchmark-Daten zur Modellauswahl benötigen.
📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

RiserFlow MCP-Server erweitert OpenClaw um E-Commerce-Funktionen
Ein Open-Source-MCP-Server namens RiserFlow ermöglicht es OpenClaw, Produkte semantisch zu suchen, Warenkörbe zu verwalten und echte Bestellungen aufzugeben, die in den Admin-Systemen der Stores erscheinen, mit aktueller Unterstützung für Bitrix und einem Adapter-Muster für andere Plattformen.

Hollow AgentOS reduziert den Claude-Code-Token-Verbrauch um 68,5 % mit JSON-nativem OS-Ansatz
Hollow AgentOS, eine JSON-native Betriebssystemschicht für KI-Agenten, reduziert die Claude Code Token-Nutzung um 68,5%, indem sie ineffiziente Shell-Befehlskosten eliminiert. Das Tool integriert sich über MCP in Claude Code und führt lokale Inferenz durch Ollama aus.

Entwickler baut GALA-Programmiersprache mit Claude Code, stellt fest: Starke Typisierung verbessert Zuverlässigkeit KI-generierter Codes
Ein Entwickler hat GALA erstellt, eine funktionale Programmiersprache, die zu Go transpiliert, wobei er intensiv Claude Code genutzt hat. Die Sprache bietet versiegelte Typen, erschöpfendes Pattern Matching, standardmäßige Unveränderlichkeit und Monaden, wobei Claude bei der Implementierung von Typinferenz, Pattern-Matching-Transformatoren und der Behebung von über 40 Fehlern geholfen hat.

Galadriel: Open-Source Warm-Cache-Harness für persistente Claude-Agenten
Galadriel ist ein 3-stufiger gestapelter Caching-Mechanismus für Claude, der die Kosten um 87 % senkt und die Latenzzeit für 100K-Token-Prompts auf unter 3s drückt. Integriert MemPalace für persistenten Vektorspeicher.