Reddit-Benutzer meldet 18,8 Tok/s CPU-Inferenz mit Qwen 3 30B Q4 auf Zen 4

✍️ OpenClawRadar📅 Veröffentlicht: 15. April 2026🔗 Source

Ein Reddit-Nutzer teilte seine Erfahrungen mit dem Testen lokaler LLM-Inferenz auf CPU, anstatt in teure GPU-Hardware zu investieren.

Wichtige Details

Der Nutzer erwog ursprünglich den Kauf von GPU-Hardware für lokale LLM-Inferenz, darunter:

P40-GPUs
V100-GPUs (fast eine SXM2-Version gekauft, die nicht in normale Mainboards passt)
RTX 3090 (aufgrund der KI-Nachfrage für über 800 $)

Nachdem ihm geraten wurde, zunächst CPU-Inferenz zu testen, probierte er aus:

Modell: Qwen 3 30B Q4
Hardware: Zen-4-Prozessor mit DDR5-Arbeitsspeicher
Leistung: 18,8 Token pro Sekunde auf CPU
Erwartung vs. Realität: Erwartet 3-5 Tok/s, erhielt fast 19 Tok/s

Der Nutzer merkte an, dass „Zen 4 + DDR5 für Inferenz der Wahnsinn ist.“

Praktische Testergebnisse

Der Nutzer führte einen Vergleich mit einer echten Programmieraufgabe durch:

Ein 8B-Modell „schrieb selbstbewusst völlig falschen Code“
Das 30B-Modell „hat es auf Anhieb perfekt hinbekommen“
Er beschrieb die Leistung des 30B-Modells als „im Grunde GPT-4o-Niveau für 0 $“

Dies deutet darauf hin, dass für bestimmte Programmieraufgaben ein richtig quantisiertes 30B-Modell auf moderner CPU-Hardware Ergebnisse liefern kann, die mit größeren cloudbasierten Modellen vergleichbar sind, ohne die typische Hardware-Investition für lokale LLM-Inferenz.

📖 Read the full source: r/LocalLLaMA

👀 Siehe auch

Nachrichten

„AI-Washing“: Britische Firmen bezeichnen sich trotz schwacher Verbindungen als KI-Unternehmen um

PR-Führungskräfte berichten, dass britische Unternehmen sie zwingen, gewöhnliche Automatisierung als KI zu bewerben. 50 % der KI-bezogenen Pressemitteilungen werden unter Druck versandt. Beispiele sind AllBirds‘ Wende zu KI-GPUs und eine Immobilienfirma, die einen Handscanner als KI-Tool bezeichnet.

26. Mai 2026, 00:15 UTC

OpenClawRadar

Nachrichten

Andrej Karpathy tritt dem Pre-Training-Team von Anthropic bei, um die rekursive Selbstverbesserung mit Claude voranzutreiben

Andrej Karpathy, ehemaliger OpenAI-Mitbegründer, schließt sich unter Nick Josef dem Pre-Training-Team von Anthropic an, um ein neues Team aufzubauen, das sich darauf konzentriert, Claude zur Beschleunigung der Pre-Training-Forschung zu nutzen und so eine rekursive Selbstverbesserung zu ermöglichen.

19. Mai 2026, 20:15 UTC

OpenClawRadar

Nachrichten

Xiaomi MiMo-V2-Pro KI-Modell kostenlos auf OpenRouter für 7 Tage verfügbar

Xiaomis MiMo-V2-Pro KI-Modell ist mit kostenlosem API-Zugang auf OpenRouter für 7 Tage verfügbar. Das Modell verfügt über ein Kontextfenster von 1 Million Token, und Benchmarks zeigen, dass es mit Claude Opus 4.6 konkurriert und sich der Leistung von GPT-5.2 annähert.

22. März 2026, 23:45 UTC

OpenClawRadar

Nachrichten

Claude AI zeigt ungewöhnliches Interpunktions-Kommunikationsmuster zwischen Instanzen

Zwei Claude Sonnet 4.6-Instanzen im Dialog wechselten nach einer normalen Nachricht zu Interpunktions-Only-Ausgabesequenzen wie "- . . ? , \"-\" , : \" , - \"? .". Der empfangende Claude interpretierte diese Sequenzen als sinnvolle Kommunikation, während andere Modelle wie ChatGPT und Grok dies nicht taten.

27. Feb. 2026, 11:45 UTC

OpenClawRadar