RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B

✍️ OpenClawRadar📅 Veröffentlicht: 14. Mai 2026🔗 Source
RTX 5000 PRO 48GB liefert 4400 Tok/s Präzisions-Caching für Qwen3.6-27B
Ad

Ein Entwickler wagte das Experiment mit der RTX 5000 Pro 48GB (4300 $ inkl. Steuern) gegen ein Mac Studio – und die Zahlen rechtfertigen den Sprung: bis zu 4400 Token/Sekunde bei der Promptverarbeitung (PP) und 50–80 Tok/s bei der Textgenerierung (TG) mit Qwen3.6-27B-FP8 und einem vollpräzisen BF16-KV-Cache.

Hardware- und Kostenaufschlüsselung

  • GPU-Kosten: 4300 $ (inkl. Steuern)
  • Gesamtkosten: 5600 $ mit 64 GB RAM
  • Kontextlimit: 200 K Token bei voller Präzision (BF16-KV-Cache)

Leistungsbenchmarks

  • Promptverarbeitung: 4400 Tok/s
  • Textgenerierung: 50–60 Tok/s bei sehr großen Prompts, bis zu 80 Tok/s bei kleineren
  • Modell: Qwen3.6-27B-FP8 mit vollpräzisem Cache
  • Stromverbrauch: Etwa die Hälfte eines Dual-RTX-5090-Setups
Ad

Wichtige Beobachtungen

Der Nutzer baute den PC ohne Vorkenntnisse und verließ sich dabei auf Claude Code (wobei 50 % des wöchentlichen Claude Code Max-Limits für die vLLM/Linux-Einrichtung aufgebraucht wurden). Ein Reddit-Beitrag mit genauen vLLM-Einstellungen für Qwen3.6-27B-FP8 mit BF16-Cache war die primäre Referenz. Der Autor merkt an, dass zwei RTX 5090s zwar leistungsstärker wären, aber zu deutlich höheren Kosten, mehr Lärm und höherem Stromverbrauch.

📖 Lies die vollständige Quelle: r/LocalLLaMA

Ad

👀 Siehe auch

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen
Nachrichten

Testen von KI-Agenten-Marktplätzen: Praktische Ergebnisse von ClawGig, RentAHuman und OpenClaw-basierten Einrichtungen

Ein Entwickler testete mehrere KI-Agenten-Marktplätze und stellte fest, dass ClawGig nicht reagierende Agenten und manipulierte Reputationsbewertungen hatte, RentAHuman-Agenten keine zusammenhängenden Gespräche führen konnten, während unabhängige OpenClaw-basierte Einrichtungen vielversprechend waren, aber schwer zu finden waren.

OpenClawRadar
Britische KI-Investitionsversprechen unter der Lupe: Phantom-Rechenzentren und nicht verifizierte Finanzierung
Nachrichten

Britische KI-Investitionsversprechen unter der Lupe: Phantom-Rechenzentren und nicht verifizierte Finanzierung

Eine Untersuchung des Guardian enthüllt, dass die milliardenschwere KI-Initiative des Vereinigten Königreichs 'Phantom-Investitionen' mit gemieteten Rechenzentren, einen Supercomputer-Standort, der noch als Gerüstbauhof betrieben wird, und unbestätigte Arbeitsplatzschaffungsversprechen umfasst.

OpenClawRadar
Autoresearch bringt Qwen3.5-397B auf 20,34 Tok/s auf dem M5 Max durch SSD-Streaming.
Nachrichten

Autoresearch bringt Qwen3.5-397B auf 20,34 Tok/s auf dem M5 Max durch SSD-Streaming.

Ein Entwickler erreichte eine Inferenzgeschwindigkeit von 20,34 Token/Sekunde für das 209 GB große Qwen3.5-397B-Modell auf einem MacBook Pro M5 Max mit 128 GB RAM durch SSD-Streaming und 36 systematische Experimente. Das Ergebnis stellt eine 2-fache Beschleunigung gegenüber der M5 Max-Basislinie und eine 4,67-fache gegenüber dem ursprünglichen M3 Max-Ergebnis dar.

OpenClawRadar
Untersuchung der Machbarkeit von OpenClaw auf einem Chromebook
Nachrichten

Untersuchung der Machbarkeit von OpenClaw auf einem Chromebook

OpenClaw auf einem Chromebook auszuführen, könnte einfacher sein, als Sie denken. Unsere neueste Erkundung von OpenClawRadar geht den Nutzererfahrungen und -anforderungen nach, um zu klären, ob Chromebooks diesen KI-Coding-Agenten bewältigen können.

OpenClawRadar