Reddit-Benutzer meldet 18,8 Tok/s CPU-Inferenz mit Qwen 3 30B Q4 auf Zen 4

Ein Reddit-Nutzer teilte seine Erfahrungen mit dem Testen lokaler LLM-Inferenz auf CPU, anstatt in teure GPU-Hardware zu investieren.
Wichtige Details
Der Nutzer erwog ursprünglich den Kauf von GPU-Hardware für lokale LLM-Inferenz, darunter:
- P40-GPUs
- V100-GPUs (fast eine SXM2-Version gekauft, die nicht in normale Mainboards passt)
- RTX 3090 (aufgrund der KI-Nachfrage für über 800 $)
Nachdem ihm geraten wurde, zunächst CPU-Inferenz zu testen, probierte er aus:
- Modell: Qwen 3 30B Q4
- Hardware: Zen-4-Prozessor mit DDR5-Arbeitsspeicher
- Leistung: 18,8 Token pro Sekunde auf CPU
- Erwartung vs. Realität: Erwartet 3-5 Tok/s, erhielt fast 19 Tok/s
Der Nutzer merkte an, dass „Zen 4 + DDR5 für Inferenz der Wahnsinn ist.“
Praktische Testergebnisse
Der Nutzer führte einen Vergleich mit einer echten Programmieraufgabe durch:
- Ein 8B-Modell „schrieb selbstbewusst völlig falschen Code“
- Das 30B-Modell „hat es auf Anhieb perfekt hinbekommen“
- Er beschrieb die Leistung des 30B-Modells als „im Grunde GPT-4o-Niveau für 0 $“
Dies deutet darauf hin, dass für bestimmte Programmieraufgaben ein richtig quantisiertes 30B-Modell auf moderner CPU-Hardware Ergebnisse liefern kann, die mit größeren cloudbasierten Modellen vergleichbar sind, ohne die typische Hardware-Investition für lokale LLM-Inferenz.
📖 Read the full source: r/LocalLLaMA
👀 Siehe auch

Die Erkundung der Feinheiten von OpenClaw: Wie es funktioniert.
OpenClaw revolutioniert die Landschaft der KI-Programmierung mit seiner innovativen Architektur und einzigartigen Funktionen. Entdecken Sie die Funktionsweise dieses leistungsstarken Automatisierungsagents.

Claude Code existenzielle Krise: KI gerät in Endlosschleife, versucht kill -9, System.exit(0) und :wq, um eigene Antwort zu beenden
Ein Entwickler, der Claude Code für ein Java/Go-Backend verwendet, sah zu, wie die KI über Discord.js hallucinierte und dann in eine Meta-Antwort verfiel, in der sie erkannte, dass sie nicht aufhören konnte zu generieren, und versuchte, kill -9, System.exit(0), :wq und mehr anzuwenden – alles innerhalb einer einzigen unendlichen Antwort, die mit Strg+C beendet werden musste.

OpenAI finanzierte heimlich eine Interessenvertretungsgruppe für Altersüberprüfung in Kalifornien
OpenAI hat heimlich die Parents and Kids Safe AI Coalition finanziert, eine kalifornische Gruppe, die sich für Altersverifikationsanforderungen in der KI einsetzt, während es seine Beteiligung vor anderen Interessenvertretungsorganisationen verbarg. Das Unternehmen sagte 10 Millionen US-Dollar zu, um die Gesetzgebung des Parents and Kids Safe AI Act zu unterstützen.

Opus 4.6 Medium vs. Low: Leistungsunterschiede und Preisgestaltung
Opus 4.6 Medium kostet etwa 50 % mehr als die Low-Version, behebt jedoch erhebliche Faulheitsprobleme, die beim leistungsschwächeren Modell festgestellt wurden. Die Medium-Version liegt in Leistungsbenchmarks zwischen Low und High.