Usuario de Reddit informa 18.8 tok/s en inferencia por CPU con Qwen 3 30B Q4 en Zen 4.

✍️ OpenClawRadar📅 Publicado: 15 de abril de 2026🔗 Source

Un usuario de Reddit compartió su experiencia probando la inferencia de LLM local en CPU en lugar de invertir en costoso hardware de GPU.

Detalles Clave

El usuario estaba considerando comprar hardware de GPU para inferencia local de LLM, incluyendo:

GPUs P40
GPUs V100 (casi compró una versión SXM2 que no se conecta a placas madre normales)
RTX 3090 (con precios de $800+ debido a la demanda de IA)

Después de que le aconsejaron probar primero la inferencia en CPU, probó:

Modelo: Qwen 3 30B Q4
Hardware: Procesador Zen 4 con memoria DDR5
Rendimiento: 18.8 tokens por segundo en CPU
Expectativa vs Realidad: Esperaba 3-5 tok/s, obtuvo casi 19 tok/s

El usuario señaló que "Zen 4 + DDR5 es increíble para inferencia".

Resultados de Pruebas Prácticas

El usuario realizó una comparación de tareas de programación reales:

Un modelo de 8B "escribió código completamente incorrecto con confianza"
El modelo de 30B "lo hizo perfecto al primer intento"
Describieron el rendimiento del modelo de 30B como "básicamente nivel GPT-4o por $0"

Esto sugiere que para ciertas tareas de programación, un modelo de 30B correctamente cuantizado ejecutándose en hardware moderno de CPU puede proporcionar resultados comparables a modelos más grandes basados en la nube, sin la inversión en hardware típicamente asociada con la inferencia local de LLM.

📖 Read the full source: r/LocalLLaMA

👀 Ver también

Noticias

Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo

En el Day 12 Word Gem Puzzle del AI Coding Contest, el Kimi K2.6 de pesos abiertos de Moonshot AI obtuvo 22 puntos de partido (7-1-0), superando a GPT-5.5 (16), Claude Opus 4.7 (12) y Gemini Pro 3.1 (9). MiMo V2-Pro quedó segundo. Kimi ganó deslizando agresivamente.

3 may 2026, 08:15 UTC

OpenClawRadar

Noticias

OpenClaw 2026.4.2 y 2026.3.31 interrumpen las conexiones de LLM locales.

Las versiones 2026.4.2 y 2026.3.31 de OpenClaw están causando tiempos de espera en la conexión a instancias de Ollama alojadas localmente. El problema aparece al conectarse a máquinas Ubuntu ejecutadas localmente, con registros de error que muestran tiempos de espera en solicitudes LLM y decisiones de conmutación por error.

14 abr 2026, 21:45 UTC

OpenClawRadar

Noticias

GRPO Agente: Primera IA en vencer a todos los humanos en una competencia de programación

El nuevo algoritmo de RL Agentic GRPO permite que una IA supere a todos los humanos en un concurso de programación al proporcionar recompensas inmediatas y corrección retardada.

24 may 2026, 12:17 UTC

OpenClawRadar

Noticias

Actualizaciones de abril de OpenClaw: Un mes de cambios radicales y confianza erosionada

Las actualizaciones de abril de OpenClaw muestran un patrón: nuevas funciones y correcciones publicadas junto con errores críticos. Los scripts posteriores a la instalación que eliminan archivos, los agujeros de seguridad y las habilidades rotas erosionan la confianza.

30 abr 2026, 12:16 UTC

OpenClawRadar