Desglose de costos de DeepSeek V4 Flash: Tasa de acierto de caché y relación de precio explicadas

✍️ OpenClawRadar📅 Publicado: 7 de mayo de 2026🔗 Source
Desglose de costos de DeepSeek V4 Flash: Tasa de acierto de caché y relación de precio explicadas
Ad

Un usuario de Reddit analizó 922 trazas de tareas agénticas ejecutadas en OpenClaw (con bucle de agente PI) y OpenRouter, comparando DeepSeek V4 Flash contra Opus 4.7. La diferencia de costo es asombrosa: $0.01 por tarea para DeepSeek frente a $1.52 para Opus, a pesar de recuentos de tokens similares (~962K promedio) y llamadas a herramientas (~14 promedio). La relación de precio es 0.0066x, muy por debajo del esperado 0.03x basado únicamente en el precio de los tokens de entrada.

Por qué DeepSeek es más barato: tasa de acierto de caché y precio de lectura/escritura

Dos factores explican la brecha:

  • Tasa de acierto de caché: DeepSeek V4 Flash logró un 97% frente al 87% de Opus 4.7. Con estas relaciones de precio de lectura/escritura de caché, cada 1% más de acierto de caché produce ~20% menos de costo total. La ventaja del 10% de DeepSeek reduce aproximadamente dos tercios del costo total.
  • Relación de precio de lectura/escritura de caché: La relación de DeepSeek es 0.02 (la lectura de caché cuesta el 2% de una escritura sin acierto), mientras que Opus está en 0.08, comparable a OpenAI, Anthropic y Gemini (0.08–0.10). Esto por sí solo reduce el costo a la mitad.
Ad

Cómo se suma

Con tokens y herramientas similares por tarea, el costo total de DeepSeek es 0.0066x el de Opus. El usuario especula que estas eficiencias están diseñadas a nivel de infraestructura o arquitectura de modelo (por ejemplo, mejor estrategia de almacenamiento en caché). El mecanismo exacto no se revela.

📖 Leer la fuente completa: r/LocalLLaMA

Ad

👀 Ver también

Explorando la nueva capa de chat diseñada para agentes de IA: ¡Se necesita retroalimentación de la comunidad!
Noticias

Explorando la nueva capa de chat diseñada para agentes de IA: ¡Se necesita retroalimentación de la comunidad!

Se ha introducido una nueva capa de chat para agentes de IA, y los creadores están invitando a la comunidad de OpenClaw a dar su opinión. Descubre el potencial de esta herramienta innovadora.

OpenClawRadar
Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo
Noticias

Kimi K2.6 supera a Claude, GPT-5.5 y Gemini en desafío de codificación con estrategia de deslizamiento agresivo

En el Day 12 Word Gem Puzzle del AI Coding Contest, el Kimi K2.6 de pesos abiertos de Moonshot AI obtuvo 22 puntos de partido (7-1-0), superando a GPT-5.5 (16), Claude Opus 4.7 (12) y Gemini Pro 3.1 (9). MiMo V2-Pro quedó segundo. Kimi ganó deslizando agresivamente.

OpenClawRadar
Estudio de Stanford: Profesores de Derecho Prefieren Respuestas de IA sobre las de sus Colegas el 75% del Tiempo
Noticias

Estudio de Stanford: Profesores de Derecho Prefieren Respuestas de IA sobre las de sus Colegas el 75% del Tiempo

En una evaluación ciega de casi 3,000 comparaciones, los profesores de derecho calificaron significativamente mejor las respuestas generadas por IA que las escritas por colegas. Las respuestas de IA fueron señaladas como dañinas solo el 3.5% del tiempo, frente al 12% de las humanas.

OpenClawRadar
Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026
Noticias

Actualización del Rendimiento de Inferencia de MLX: Puntos de Referencia y Características de Abril de 2026

El rendimiento de inferencia de MLX ha mejorado significativamente, con Qwen3.5-35B-A3B alcanzando 71.8 tokens/segundo en contexto de 4K y nuevas características como Predicción Multi-Token y SpecPrefill proporcionando aceleraciones de 2.3x a 5.5x para modelos grandes.

OpenClawRadar