El complemento MCP de caché de prompts reduce automáticamente los costos de la API de Claude al identificar contextos estables.

Prompt-caching es un complemento MCP que reduce automáticamente los costos de la API de Claude aprovechando la función de caché de Anthropic. Al usar Claude Code o Cursor/Windsurf/Zed con la API de Anthropic, cada turno normalmente reenvía todo el contexto desde cero, lo que significa que miles de tokens se facturan a tarifa completa repetidamente durante largas sesiones de depuración.
Cómo funciona
Anthropic proporciona una función de caché que hace que las lecturas repetidas cuesten 0.1× en lugar de 1×, pero esto requiere marcar manualmente lo que se almacena en caché. El complemento prompt-caching se ejecuta en segundo plano, identifica partes estables de tu contexto (prompts del sistema, definiciones de herramientas, lecturas de archivos grandes) y las marca automáticamente antes de cada llamada a la API.
Resultados de rendimiento
- Corrección de error de 20 turnos: 85% más económico
- Refactorización de 15 turnos: 80% más económico
- Sesión de codificación de 40 turnos: 92% más económico
Instalación
Para usuarios de Claude Code:
/plugin marketplace add https://github.com/flightlesstux/prompt-caching
/plugin install prompt-caching@ercan-ermis
Para Cursor/Windsurf/Zed:
npm install -g prompt-caching-mcp
Luego apunta tu configuración MCP hacia él.
La herramienta es de código abierto bajo la licencia MIT y está disponible de forma gratuita. El repositorio está en https://github.com/flightlesstux/prompt-caching.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Maggy: Una plataforma de ingeniería autónoma en Claude Code con memoria entre sesiones y aprendizaje en equipo P2P
Maggy se sitúa en el Nivel 4 del espectro de herramientas de codificación de IA: orquestación multimodelo, memoria entre sesiones, inteligencia de procesos a partir de CI/revisiones y aprendizaje entre pares del equipo. Los benchmarks muestran una reducción del 83 % en el uso de Claude, mientras detecta 7 problemas de seguridad que el Claude Code de un solo pipeline pasó por alto.

SkyClaw Agrega Configuración de Clave API Basada en Chat Encriptado para Agentes de IA
SkyClaw implementa la ingesta de claves cifradas AES-256-GCM a través del chat, interceptando comandos de claves en la capa del sistema para que el LLM nunca vea las claves API y utilizando cifrado de clave única para que las plataformas de mensajería solo vean texto cifrado.

Orion: Evadiendo CoreML para ejecutar y entrenar LLMs directamente en el Motor Neuronal de Apple
Orion es un sistema de código abierto en Objective-C que evita el CoreML de Apple para ejecutar y entrenar LLMs directamente en el Motor Neuronal de Apple (ANE), logrando más de 170 tokens/s para la decodificación de GPT-2 124M y un entrenamiento estable de múltiples pasos en un transformador de 110 millones de parámetros.

Resultados de Referencia: 15 LLMs Evaluados en 38 Tareas de Flujo de Trabajo Real
Un desarrollador comparó 15 LLMs en la nube y locales en 38 tareas de su flujo de trabajo real, incluyendo transformaciones CSV, conteo de letras, aritmética modular y cumplimiento de formato. Claude 3.5 Sonnet y Opus obtuvieron ambos un 100%, pero Sonnet cuesta 3.5 veces menos por llamada.