Usuario de Reddit informa 18.8 tok/s en inferencia por CPU con Qwen 3 30B Q4 en Zen 4.

Un usuario de Reddit compartió su experiencia probando la inferencia de LLM local en CPU en lugar de invertir en costoso hardware de GPU.
Detalles Clave
El usuario estaba considerando comprar hardware de GPU para inferencia local de LLM, incluyendo:
- GPUs P40
- GPUs V100 (casi compró una versión SXM2 que no se conecta a placas madre normales)
- RTX 3090 (con precios de $800+ debido a la demanda de IA)
Después de que le aconsejaron probar primero la inferencia en CPU, probó:
- Modelo: Qwen 3 30B Q4
- Hardware: Procesador Zen 4 con memoria DDR5
- Rendimiento: 18.8 tokens por segundo en CPU
- Expectativa vs Realidad: Esperaba 3-5 tok/s, obtuvo casi 19 tok/s
El usuario señaló que "Zen 4 + DDR5 es increíble para inferencia".
Resultados de Pruebas Prácticas
El usuario realizó una comparación de tareas de programación reales:
- Un modelo de 8B "escribió código completamente incorrecto con confianza"
- El modelo de 30B "lo hizo perfecto al primer intento"
- Describieron el rendimiento del modelo de 30B como "básicamente nivel GPT-4o por $0"
Esto sugiere que para ciertas tareas de programación, un modelo de 30B correctamente cuantizado ejecutándose en hardware moderno de CPU puede proporcionar resultados comparables a modelos más grandes basados en la nube, sin la inversión en hardware típicamente asociada con la inferencia local de LLM.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo
En el Day 12 Word Gem Puzzle del AI Coding Contest, el Kimi K2.6 de pesos abiertos de Moonshot AI obtuvo 22 puntos de partido (7-1-0), superando a GPT-5.5 (16), Claude Opus 4.7 (12) y Gemini Pro 3.1 (9). MiMo V2-Pro quedó segundo. Kimi ganó deslizando agresivamente.

OpenClaw 2026.4.2 y 2026.3.31 interrumpen las conexiones de LLM locales.
Las versiones 2026.4.2 y 2026.3.31 de OpenClaw están causando tiempos de espera en la conexión a instancias de Ollama alojadas localmente. El problema aparece al conectarse a máquinas Ubuntu ejecutadas localmente, con registros de error que muestran tiempos de espera en solicitudes LLM y decisiones de conmutación por error.

GRPO Agente: Primera IA en vencer a todos los humanos en una competencia de programación
El nuevo algoritmo de RL Agentic GRPO permite que una IA supere a todos los humanos en un concurso de programación al proporcionar recompensas inmediatas y corrección retardada.

Actualizaciones de abril de OpenClaw: Un mes de cambios radicales y confianza erosionada
Las actualizaciones de abril de OpenClaw muestran un patrón: nuevas funciones y correcciones publicadas junto con errores críticos. Los scripts posteriores a la instalación que eliminan archivos, los agujeros de seguridad y las habilidades rotas erosionan la confianza.