Blackwell LLM Toolkit: NVFP4-Konfigurationen, Räder und Benchmarks für TensorRT-LLM auf RTX Pro 6000

✍️ OpenClawRadar📅 Veröffentlicht: 12. Mai 2026🔗 Source
Blackwell LLM Toolkit: NVFP4-Konfigurationen, Räder und Benchmarks für TensorRT-LLM auf RTX Pro 6000
Ad

Ein neues Repository auf GitHub, blackwell-llm-toolkit, sammelt TensorRT-LLM-Konfigurationen, vorgebaute Räder und Benchmark-Ergebnisse für den Betrieb von LLMs auf Nvidia Blackwell GPUs (RTX Pro 6000, 5090, 5080, 5070 Ti). Der Fokus liegt auf NVFP4-Quantisierung und der Überwindung plattformspezifischer Hürden.

Hauptfunktionen

  • TensorRT-LLM-Konfigurationen: Enthält eine YAML-Datei (configs/trtllm/nemotron-omni-v3-sm120.yaml) mit den obskuren Startflags, die zum Ausführen von Mamba-Hybrid-Modellen auf Blackwell erforderlich sind.
  • LMCache-Räder: Das PyPI-Rad stürzte auf Blackwell aufgrund fehlender sm_120-Cubins ab. Das Repository bietet ein neu gebautes Rad und ein Build-Skript, getestet mit Optane SSD für KV-Cache-Auslagerung.
  • Forschungsdokumente: KI-generierte Deep-Dives zu Architekturunterschieden bei Nemotron Omni V3, Qwen 3.5/3.6 und Gemma 4. Beachten Sie: Qwen 3.5/3.6 sind nicht nur umbenannte Qwen3-VL – sie haben eine völlig andere Architektur.
  • Benchmark-Tools: rapid_bench.py führt eine Qualitätsbewertung mit 41 Prompts durch (Intelligenz, Tool-Nutzung, Kalibrierung, Orchestrierung, kreatives Schreiben). bench_harness.py misst anhaltende Dekodierung, TTFT, Prefill und Parallelität, mit einem --prompt-tokens N Modus für langen Kontext.
Ad

Benchmark-Highlights (Einzelne RTX Pro 6000 96GB, kein TP)

  • Nemotron-3-Nano-Omni V3 (multimodal, NVFP4, 8k Kontext): 270 tok/s. Schnellstes getestetes Modell, verarbeitet Bild/Video/Audio+Text. Erfordert TRT-LLM v1.3.0rc13.
  • Nemotron-3-Nano (nur Text, NVFP4, 8k Kontext): 249 tok/s. Am besten für Tool-Calling-Agenten (10/10 bei Tools).
  • DeepSeek-V4-Flash (IQ2_XXS-XL GGUF, 65k Kontext): 31 tok/s. Am besten für komplexes Denken (9/10 Intel, 10/10 Tools, 13/13 Kalibrierung).
  • MiniMax-M2.7-REAP-172B (Q3_K_S GGUF, 196k Kontext): 117 tok/s. Gut für lange Gespräche.
  • MiniMax-M2.7 W4A16 (mit LMCache auf Optane SSD, 154k Kontext): 20-22 tok/s. Lange Kontextqualität bei W4A16.
  • MiniMax-M2.7 W4A16 (kurzer Kontext, ohne LMCache, 64k Kontext): 22-25 tok/s. Höchste Qualität bei kurzen Antworten (10/10 Intel).

Vollständige Ergebnisse mit TTFT, Prefill-Geschwindigkeiten, Parallelität und Bewertungswerten finden Sie in bench/results.md.

Für wen es gedacht ist

Entwickler und Forscher, die LLM-Inferenz auf Blackwell GPUs betreiben und optimierte TensorRT-LLM-Konfigurationen, vorgebaute LMCache für langen Kontext oder reale Benchmark-Daten zur Modellauswahl benötigen.

📖 Lesen Sie die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

RiserFlow MCP-Server erweitert OpenClaw um E-Commerce-Funktionen
Werkzeuge

RiserFlow MCP-Server erweitert OpenClaw um E-Commerce-Funktionen

Ein Open-Source-MCP-Server namens RiserFlow ermöglicht es OpenClaw, Produkte semantisch zu suchen, Warenkörbe zu verwalten und echte Bestellungen aufzugeben, die in den Admin-Systemen der Stores erscheinen, mit aktueller Unterstützung für Bitrix und einem Adapter-Muster für andere Plattformen.

OpenClawRadar
Hollow AgentOS reduziert den Claude-Code-Token-Verbrauch um 68,5 % mit JSON-nativem OS-Ansatz
Werkzeuge

Hollow AgentOS reduziert den Claude-Code-Token-Verbrauch um 68,5 % mit JSON-nativem OS-Ansatz

Hollow AgentOS, eine JSON-native Betriebssystemschicht für KI-Agenten, reduziert die Claude Code Token-Nutzung um 68,5%, indem sie ineffiziente Shell-Befehlskosten eliminiert. Das Tool integriert sich über MCP in Claude Code und führt lokale Inferenz durch Ollama aus.

OpenClawRadar
Entwickler baut GALA-Programmiersprache mit Claude Code, stellt fest: Starke Typisierung verbessert Zuverlässigkeit KI-generierter Codes
Werkzeuge

Entwickler baut GALA-Programmiersprache mit Claude Code, stellt fest: Starke Typisierung verbessert Zuverlässigkeit KI-generierter Codes

Ein Entwickler hat GALA erstellt, eine funktionale Programmiersprache, die zu Go transpiliert, wobei er intensiv Claude Code genutzt hat. Die Sprache bietet versiegelte Typen, erschöpfendes Pattern Matching, standardmäßige Unveränderlichkeit und Monaden, wobei Claude bei der Implementierung von Typinferenz, Pattern-Matching-Transformatoren und der Behebung von über 40 Fehlern geholfen hat.

OpenClawRadar
Galadriel: Open-Source Warm-Cache-Harness für persistente Claude-Agenten
Werkzeuge

Galadriel: Open-Source Warm-Cache-Harness für persistente Claude-Agenten

Galadriel ist ein 3-stufiger gestapelter Caching-Mechanismus für Claude, der die Kosten um 87 % senkt und die Latenzzeit für 100K-Token-Prompts auf unter 3s drückt. Integriert MemPalace für persistenten Vektorspeicher.

OpenClawRadar