Utilisateur de Reddit rapporte 18,8 tok/s en inférence CPU avec Qwen 3 30B Q4 sur Zen 4

✍️ OpenClawRadar📅 Publié: April 15, 2026🔗 Source

Un utilisateur de Reddit a partagé son expérience de test d'inférence LLM locale sur CPU au lieu d'investir dans du matériel GPU coûteux.

Détails clés

L'utilisateur envisageait d'acheter du matériel GPU pour l'inférence LLM locale, notamment :

Des GPU P40
Des GPU V100 (a failli acheter une version SXM2 qui ne se branche pas sur des cartes mères normales)
Des RTX 3090 (prix à 800 $+ en raison de la demande en IA)

Après avoir été conseillé d'essayer d'abord l'inférence sur CPU, il a testé :

Modèle : Qwen 3 30B Q4
Matériel : Processeur Zen 4 avec mémoire DDR5
Performances : 18,8 tokens par seconde sur CPU
Attente vs Réalité : Attendu 3-5 tok/s, obtenu près de 19 tok/s

L'utilisateur a noté que "Zen 4 + DDR5 est dingue pour l'inférence".

Résultats pratiques des tests

L'utilisateur a mené une comparaison réelle de tâches de codage :

Un modèle 8B "a écrit avec confiance un code complètement faux"
Le modèle 30B "a réussi du premier coup"
Il a décrit les performances du modèle 30B comme "pratiquement au niveau de GPT-4o pour 0 $"

Cela suggère que pour certaines tâches de codage, un modèle 30B correctement quantifié fonctionnant sur du matériel CPU moderne peut fournir des résultats comparables à ceux de modèles cloud plus grands, sans l'investissement matériel typiquement associé à l'inférence LLM locale.

📖 Read the full source: r/LocalLLaMA

👀 See Also

News

La stratégie d'IA d'Apple et la marchandisation de l'intelligence

L'article soutient que l'approche conservatrice d'Apple en matière d'IA pourrait être avantageuse à mesure que l'intelligence se banalise, avec des modèles comme Gemma4 atteignant 85,2 % sur MMLU Pro tout en fonctionnant sur des téléphones, et le Sora d'OpenAI coûtant 15 millions de dollars par jour contre 2,1 millions de dollars de revenus.

Apr 16, 2026, 12:45 PM UTC

OpenClawRadar

News

Les organisations à but non lucratif obtiennent l'accès à Claude Opus 4.6 sur les forfaits Team et Enterprise.

Les organisations à but non lucratif utilisant les plans Équipe et Entreprise peuvent désormais accéder à Claude Opus 4.6, le dernier modèle d'IA d'Anthropic, sans frais supplémentaires.

Feb 13, 2026, 02:45 AM UTC

OpenClawRadar

News

L'arnaque aux graines de fleurs générées par IA inonde eBay, Amazon et Etsy

Des escrocs utilisent des images IA pour vendre des graines de plantes comme les « tournesols ours en peluche » qui n'existent pas. eBay, Amazon et Etsy luttent pour endiguer le flot.

Jul 2, 2026, 12:20 PM UTC

OpenClawRadar

News

Révision de code GitHub Copilot consommera des minutes Actions à partir du 1er juin 2026

À partir du 1er juin 2026, les revues de code Copilot de GitHub sur les dépôts privés consommeront des minutes GitHub Actions en plus des crédits IA. Les dépôts publics restent gratuits.

Apr 28, 2026, 02:18 PM UTC

OpenClawRadar