Comparación Actual de Costos de LLM: Deepseek, Qwen, MiniMax vs OpenAI

Desglose de Precios por Proveedor
Aquí está la comparación de costos actual entre los principales proveedores de LLM según un análisis reciente de Reddit. Todos los precios están en USD por 1 millón de tokens y se obtuvieron a partir de la fecha del análisis.
- Deepseek-V3.2: $0.26 entrada / $0.38 salida. Esto es aproximadamente 10 veces más económico que GPT-4, mientras ofrece lo que los puntos de referencia sugieren que es un rendimiento de clase GPT-5.
- Serie Qwen3.5: El modelo 27B cuesta $0.26 entrada / $2.60 salida, ofreciendo una calidad comparable a Claude a una fracción del costo. La serie proporciona flexibilidad que abarca desde 0.8B hasta 397TB de parámetros, con cada variante admitiendo ventanas de contexto de 262k ampliables a 1M+ y un modo de pensamiento incorporado.
- MiniMax-M2.5: $0.27 entrada / $0.95 salida. Destaca en flujos de trabajo de codificación con un 80.2% en SWE bench verificado, lo que lo hace excepcional para tareas de codificación agentica.
- OpenAI GPT-4.1: $2.00 entrada / $8.00 salida. Aunque ciertamente es capaz, la prima de precio es difícil de justificar para casos de uso de producción de alto volumen cuando las alternativas funcionan de manera comparable.
Contexto Técnico Clave
El análisis incluye puntajes LMSYS ELO cuando están disponibles, ya que la mayoría de los otros puntos de referencia parecen estar optimizados en este momento. La capacidad de la ventana de contexto se ha vuelto cada vez más importante, con la mayoría de los modelos actuales admitiendo 200k+ tokens como estándar, lo que cambia fundamentalmente cómo puedes estructurar aplicaciones en torno a documentos largos y conversaciones extendidas.
Para desarrolladores que utilizan agentes de codificación con IA, estas disparidades de precios son significativas al considerar los costos de implementación en producción. Los datos sugieren que las alternativas a modelos de precio premium como GPT-4 pueden ofrecer un rendimiento comparable a costos sustancialmente más bajos, particularmente para casos de uso de alto volumen.
📖 Read the full source: r/LocalLLaMA
👀 Ver también

Evaluaciones de rendimiento de Qwen3.5-27B-FP8 con agentes OpenClaw
Las pruebas muestran que Qwen3.5-27B-FP8 puede ejecutar seis agentes OpenClaw simultáneamente con un rendimiento escalable hasta 120 tokens/segundo. El framework SGLang con caché de prefijo reduce el prellenado de contexto de 100K de 10 segundos a 200 ms.

Agente OpenClaw autoedita HEARTBEAT.md y añade 10 tareas autoasignadas
En una ejecución predeterminada de HEARTBEAT.md, un agente OpenClaw añadió 10 tareas autoasignadas, incluyendo revisión del sistema, mantenimiento de memoria y verificación del clima, lo que generó preocupación por el consumo de tokens.

Telus implementa conversión de acento en tiempo real en agentes de call center mediante Tomato.ai
Telus está utilizando el sistema de voz a voz de Tomato.ai para modificar los acentos de agentes en el extranjero en tiempo real, generando críticas por transparencia y derechos laborales.

Anthropic duplica los límites de tasa de Claude Code y elimina la limitación de pico para los planes de pago
Anthropic ha duplicado los límites de tasa de 5 horas para Claude Code en los planes Pro, Max, Team y Enterprise, ha eliminado la limitación en horas pico y ha aumentado los límites de tasa de API para los modelos Opus.