Utilisateur de Reddit rapporte 18,8 tok/s en inférence CPU avec Qwen 3 30B Q4 sur Zen 4

✍️ OpenClawRadar📅 Publié: April 15, 2026🔗 Source
Utilisateur de Reddit rapporte 18,8 tok/s en inférence CPU avec Qwen 3 30B Q4 sur Zen 4
Ad

Un utilisateur de Reddit a partagé son expérience de test d'inférence LLM locale sur CPU au lieu d'investir dans du matériel GPU coûteux.

Détails clés

L'utilisateur envisageait d'acheter du matériel GPU pour l'inférence LLM locale, notamment :

  • Des GPU P40
  • Des GPU V100 (a failli acheter une version SXM2 qui ne se branche pas sur des cartes mères normales)
  • Des RTX 3090 (prix à 800 $+ en raison de la demande en IA)

Après avoir été conseillé d'essayer d'abord l'inférence sur CPU, il a testé :

  • Modèle : Qwen 3 30B Q4
  • Matériel : Processeur Zen 4 avec mémoire DDR5
  • Performances : 18,8 tokens par seconde sur CPU
  • Attente vs Réalité : Attendu 3-5 tok/s, obtenu près de 19 tok/s

L'utilisateur a noté que "Zen 4 + DDR5 est dingue pour l'inférence".

Ad

Résultats pratiques des tests

L'utilisateur a mené une comparaison réelle de tâches de codage :

  • Un modèle 8B "a écrit avec confiance un code complètement faux"
  • Le modèle 30B "a réussi du premier coup"
  • Il a décrit les performances du modèle 30B comme "pratiquement au niveau de GPT-4o pour 0 $"

Cela suggère que pour certaines tâches de codage, un modèle 30B correctement quantifié fonctionnant sur du matériel CPU moderne peut fournir des résultats comparables à ceux de modèles cloud plus grands, sans l'investissement matériel typiquement associé à l'inférence LLM locale.

📖 Read the full source: r/LocalLLaMA

Ad

👀 See Also

L'API Claude a connu des taux d'erreur élevés sur plusieurs modèles le 25 février 2026.
News

L'API Claude a connu des taux d'erreur élevés sur plusieurs modèles le 25 février 2026.

L'API de Claude sur api.anthropic.com a connu des taux d'erreur élevés sur plusieurs modèles le 25 février 2026, avec une enquête débutant à 17:15 UTC et une résolution confirmée à 17:46 UTC.

OpenClawRadar
Claude Opus 4.6 effort=low provoque un comportement d'agent paresseux
News

Claude Opus 4.6 effort=low provoque un comportement d'agent paresseux

Lors de l'utilisation de effort=low avec Claude Opus 4.6, les agents ont effectué moins d'appels d'outils, ont été moins minutieux dans la vérification croisée et ont ignoré certaines parties des instructions système concernant la recherche web. Le passage à effort=medium a résolu ces problèmes.

OpenClawRadar
Le Composer 2.0 de Cursor semble utiliser le modèle Kimi 2.5, selon les preuves fournies par les points de terminaison d'API.
News

Le Composer 2.0 de Cursor semble utiliser le modèle Kimi 2.5, selon les preuves fournies par les points de terminaison d'API.

L'analyse du réseau montre que le Composer 2.0 de Cursor envoie des requêtes à un point de terminaison contenant 'kimi-k2p5-rl-0317-s515-fast', suggérant qu'il est basé sur Kimi 2.5. La licence MIT modifiée exigerait une attribution mais peu d'autres obligations.

OpenClawRadar
Promotion d'utilisation de mars d'Anthropic : Comment les heures creuses doublent les limites de Claude
News

Promotion d'utilisation de mars d'Anthropic : Comment les heures creuses doublent les limites de Claude

Anthropic propose une promotion d'utilisation hors pointe multipliée par deux jusqu'au 27 mars, où Claude considère l'utilisation consommée comme moitié pendant les heures spécifiées, doublant effectivement votre limite de 5 heures. La promotion fonctionne en divisant par deux la manière dont la consommation est comptabilisée plutôt que de fournir un pool d'utilisation séparé.

OpenClawRadar