Desglose de costos de DeepSeek V4 Flash: Tasa de acierto de caché y relación de precio explicadas

✍️ OpenClawRadar📅 Publicado: 7 de mayo de 2026🔗 Source
Desglose de costos de DeepSeek V4 Flash: Tasa de acierto de caché y relación de precio explicadas
Ad

Un usuario de Reddit analizó 922 trazas de tareas agénticas ejecutadas en OpenClaw (con bucle de agente PI) y OpenRouter, comparando DeepSeek V4 Flash contra Opus 4.7. La diferencia de costo es asombrosa: $0.01 por tarea para DeepSeek frente a $1.52 para Opus, a pesar de recuentos de tokens similares (~962K promedio) y llamadas a herramientas (~14 promedio). La relación de precio es 0.0066x, muy por debajo del esperado 0.03x basado únicamente en el precio de los tokens de entrada.

Por qué DeepSeek es más barato: tasa de acierto de caché y precio de lectura/escritura

Dos factores explican la brecha:

  • Tasa de acierto de caché: DeepSeek V4 Flash logró un 97% frente al 87% de Opus 4.7. Con estas relaciones de precio de lectura/escritura de caché, cada 1% más de acierto de caché produce ~20% menos de costo total. La ventaja del 10% de DeepSeek reduce aproximadamente dos tercios del costo total.
  • Relación de precio de lectura/escritura de caché: La relación de DeepSeek es 0.02 (la lectura de caché cuesta el 2% de una escritura sin acierto), mientras que Opus está en 0.08, comparable a OpenAI, Anthropic y Gemini (0.08–0.10). Esto por sí solo reduce el costo a la mitad.
Ad

Cómo se suma

Con tokens y herramientas similares por tarea, el costo total de DeepSeek es 0.0066x el de Opus. El usuario especula que estas eficiencias están diseñadas a nivel de infraestructura o arquitectura de modelo (por ejemplo, mejor estrategia de almacenamiento en caché). El mecanismo exacto no se revela.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Análisis: Los costos reales de cómputo de Anthropic para los usuarios de Claude Code son mucho más bajos que la cifra reportada de $5,000.
Noticias

Análisis: Los costos reales de cómputo de Anthropic para los usuarios de Claude Code son mucho más bajos que la cifra reportada de $5,000.

Un artículo reciente analiza la afirmación de que el plan Claude Code Max de $200/mes de Anthropic consume $5,000 en cómputo, encontrando que los costos reales de inferencia son aproximadamente el 10% de los precios de la API al comparar con modelos de peso abierto competitivos en OpenRouter.

OpenClawRadar
Richard Dawkins concluye que la IA es consciente — Expertos se oponen
Noticias

Richard Dawkins concluye que la IA es consciente — Expertos se oponen

El biólogo evolutivo Richard Dawkins, tras largas conversaciones con Claude de Anthropic y ChatGPT de OpenAI, concluyó que las IA son conscientes. La mayoría de los científicos cognitivos discrepan firmemente, calificándolo de antropomorfismo.

OpenClawRadar
MicroVMs de AWS Lambda: aislamiento a nivel de VM para código generado por usuario e IA, con suspensión/reanudación de hasta 8 horas
Noticias

MicroVMs de AWS Lambda: aislamiento a nivel de VM para código generado por usuario e IA, con suspensión/reanudación de hasta 8 horas

AWS lanza Lambda MicroVMs, un primitivo de computación serverless basado en Firecracker, que proporciona aislamiento de VM por usuario, lanzamiento casi instantáneo y conservación del estado de hasta 8 horas para ejecutar código generado por el usuario o IA.

OpenClawRadar
Protocolo de Convergencia Quumble v5: Resultados del Experimento de LLM de Arquitectura Cruzada
Noticias

Protocolo de Convergencia Quumble v5: Resultados del Experimento de LLM de Arquitectura Cruzada

El Protocolo de Convergencia Quumble v5 prueba si instancias independientes de LLM convergen en descripciones de criaturas imaginarias cuando se les dan palabras sin sentido. Los resultados muestran que tanto Claude (Opus 4.6 y Sonnet 4.6) como GPT-5.3 produjeron de forma independiente una criatura pequeña, redonda, suave, de tono lavanda, bioluminiscente y que zumba a partir de la palabra 'quumble'.

OpenClawRadar