Qwen3.6 27B FP8 läuft mit 200k Tokens BF16 KV-Cache bei 80 TPS auf RTX 5000 PRO 48GB

✍️ OpenClawRadar📅 Veröffentlicht: 5. Mai 2026🔗 Source
Qwen3.6 27B FP8 läuft mit 200k Tokens BF16 KV-Cache bei 80 TPS auf RTX 5000 PRO 48GB
Ad

Ein Reddit-Benutzer in r/LocalLLaMA berichtet, dass er Qwen3.6-27B-FP8 mit einem BF16-KV-Cache von 200.000 Token bei 60–90 TPS auf einer einzelnen RTX 5000 PRO 48GB GPU ausführt. Das Setup verwendet vLLM 0.20.1, CUDA 12.9 und Qwens offizielles FP8-Quant, wodurch Multi-Modalität und MTP-spekulatives Decoding erhalten bleiben.

Setup-Details

Die Umgebung verwendet FlashInfer FP8 MoE, FP8 Marlin und asynchrone Planung. Wichtige Umgebungsvariablen und Startbefehl:

export VLLM_USE_FLASHINFER_MOE_FP8=1
export VLLM_TEST_FORCE_FP8_MARLIN=1
export VLLM_SLEEP_WHEN_IDLE=1
export VLLM_MEMORY_PROFILER_ESTIMATE_CUDAGRAPHS=1
export VLLM_LOG_STATS_INTERVAL=2
export VLLM_WORKER_MULTIPROC_METHOD=spawn
export SAFETENSORS_FAST_GPU=1
export CUDA_DEVICE_ORDER=PCI_BUS_ID
export TORCH_FLOAT32_MATMUL_PRECISION=high
export PYTORCH_ALLOC_CONF=expandable_segments:True

vllm serve Qwen/Qwen3.6-27B-FP8
--host 0.0.0.0 --port 8080
--performance-mode interactivity
--trust-remote-code
--enable-auto-tool-choice
--tool-call-parser qwen3_coder
--reasoning-parser qwen3
--mm-encoder-tp-mode data
--mm-processor-cache-type shm
--gpu-memory-utilization 0.975
--speculative-config '{"method":"mtp","num_speculative_tokens":2}'
--compilation-config '{"cudagraph_mode": "FULL_AND_PIECEWISE", "max_cudagraph_capture_size": 16, "mode": "VLLM_COMPILE"}'
--async-scheduling
--attention-backend flashinfer
--max-model-len 196608
--kv-cache-dtype bfloat16
--enable-prefix-caching

Ad

Leistungsbeobachtungen

Mit MTP=2 spekulativem Decoding erzeugt das System 60–90 TPS während der Codegenerierung. Der BF16-KV-Cache vermeidet Komprimierungsprobleme, die bei quantisiertem KV auftreten, und macht lange Codierungssitzungen zuverlässiger. Der Benutzer merkt an, dass das Setup auf einer einzelnen RTX 5000 PRO 48GB mit 64GB Systemspeicher und einer ordentlichen CPU läuft, und bezeichnet es als starken Kandidaten für eine 10.000$-Workstation für die lokale LLM-Entwicklung.

Für wen es gedacht ist

Entwickler, die ein lokales, niedrig komprimiertes agentisches Codierungs-Setup mit minimalen Quantisierungsartefakten und langen Kontextfenstern benötigen.

📖 Vollständige Quelle lesen: r/LocalLLaMA

Ad

👀 Siehe auch

Die Notwendigkeit relationaler Governance in Multi-Agenten-Systemen
Nachrichten

Die Notwendigkeit relationaler Governance in Multi-Agenten-Systemen

Aktuelle Governance-Rahmenwerke konzentrieren sich auf Identität, Berechtigungen und Notabschaltungen, berücksichtigen jedoch nicht die Koordination zwischen Agenten. Forschungen zeigen, dass Interaktionen zwischen Agenten maßgeschneiderte Lösungen erfordern, die über hochskalierte Mensch-Agent-Gespräche hinausgehen.

OpenClawRadar
Qwen3-30B-A3B vs Qwen3.5-35B-A3B Leistungsvergleich auf RTX 5090
Nachrichten

Qwen3-30B-A3B vs Qwen3.5-35B-A3B Leistungsvergleich auf RTX 5090

Ein direkter Benchmark-Vergleich von Qwen3-30B-A3B und Qwen3.5-35B-A3B auf einer RTX 5090 zeigt, dass das 30B-Modell bei der Texterzeugung 35 % schneller ist, während das 3.5-Modell dank flacher Token-Skalierung im Gegensatz zum 21 %-Rückgang des 30B-Modells lange Kontexte besser verarbeitet.

OpenClawRadar
OpenRouter bestätigt, dass die Hunter/Healer-Alpha-Modelle Varianten von MiMo V2 sind.
Nachrichten

OpenRouter bestätigt, dass die Hunter/Healer-Alpha-Modelle Varianten von MiMo V2 sind.

OpenRouters bisher im Verborgenen gehaltene Hunter Alpha- und Healer Alpha-Modelle wurden als MiMo V2-Varianten bestätigt. Hunter Alpha ist das MiMo V2 Pro reine Text-Verarbeitungsmodell mit einem Kontextfenster von 1 Million Tokens, während Healer Alpha das MiMo V2 Omni Text+Bild-Verarbeitungsmodell mit einem Kontextfenster von 262.000 Tokens ist.

OpenClawRadar
Anthropic streamt heute Live-Briefing zu Enterprise Agents
Nachrichten

Anthropic streamt heute Live-Briefing zu Enterprise Agents

Anthropic streamt heute, am 24. Februar 2026, eine Live-Virtual-Briefing zum Thema Enterprise Agents. Die Veranstaltung ist über deren Website zugänglich.

OpenClawRadar