RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B

Ein Entwickler wagte das Experiment mit der RTX 5000 Pro 48GB (4300 $ inkl. Steuern) gegen ein Mac Studio – und die Zahlen rechtfertigen den Sprung: bis zu 4400 Token/Sekunde bei der Promptverarbeitung (PP) und 50–80 Tok/s bei der Textgenerierung (TG) mit Qwen3.6-27B-FP8 und einem vollpräzisen BF16-KV-Cache.
Hardware- und Kostenaufschlüsselung
- GPU-Kosten: 4300 $ (inkl. Steuern)
- Gesamtkosten: 5600 $ mit 64 GB RAM
- Kontextlimit: 200 K Token bei voller Präzision (BF16-KV-Cache)
Leistungsbenchmarks
- Promptverarbeitung: 4400 Tok/s
- Textgenerierung: 50–60 Tok/s bei sehr großen Prompts, bis zu 80 Tok/s bei kleineren
- Modell: Qwen3.6-27B-FP8 mit vollpräzisem Cache
- Stromverbrauch: Etwa die Hälfte eines Dual-RTX-5090-Setups
Wichtige Beobachtungen
Der Nutzer baute den PC ohne Vorkenntnisse und verließ sich dabei auf Claude Code (wobei 50 % des wöchentlichen Claude Code Max-Limits für die vLLM/Linux-Einrichtung aufgebraucht wurden). Ein Reddit-Beitrag mit genauen vLLM-Einstellungen für Qwen3.6-27B-FP8 mit BF16-Cache war die primäre Referenz. Der Autor merkt an, dass zwei RTX 5090s zwar leistungsstärker wären, aber zu deutlich höheren Kosten, mehr Lärm und höherem Stromverbrauch.
📖 Lies die vollständige Quelle: r/LocalLLaMA
👀 Siehe auch

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen
Ein Entwickler testete mehrere KI-Agenten-Marktplätze und stellte fest, dass ClawGig nicht reagierende Agenten und manipulierte Reputationsbewertungen hatte, RentAHuman-Agenten keine zusammenhängenden Gespräche führen konnten, während unabhängige OpenClaw-basierte Einrichtungen vielversprechend waren, aber schwer zu finden waren.

Britische KI-Investitionsversprechen unter der Lupe: Phantom-Rechenzentren und nicht verifizierte Finanzierung
Eine Untersuchung des Guardian enthüllt, dass die milliardenschwere KI-Initiative des Vereinigten Königreichs 'Phantom-Investitionen' mit gemieteten Rechenzentren, einen Supercomputer-Standort, der noch als Gerüstbauhof betrieben wird, und unbestätigte Arbeitsplatzschaffungsversprechen umfasst.

Autoresearch bringt Qwen3.5-397B auf 20,34 Tok/s auf dem M5 Max durch SSD-Streaming.
Ein Entwickler erreichte eine Inferenzgeschwindigkeit von 20,34 Token/Sekunde für das 209 GB große Qwen3.5-397B-Modell auf einem MacBook Pro M5 Max mit 128 GB RAM durch SSD-Streaming und 36 systematische Experimente. Das Ergebnis stellt eine 2-fache Beschleunigung gegenüber der M5 Max-Basislinie und eine 4,67-fache gegenüber dem ursprünglichen M3 Max-Ergebnis dar.

Untersuchung der Machbarkeit von OpenClaw auf einem Chromebook
OpenClaw auf einem Chromebook auszuführen, könnte einfacher sein, als Sie denken. Unsere neueste Erkundung von OpenClawRadar geht den Nutzererfahrungen und -anforderungen nach, um zu klären, ob Chromebooks diesen KI-Coding-Agenten bewältigen können.