Sobrecarga MCP: costos reales y solución BM25 para Claude Code

Un usuario de Reddit que ejecutó 9 servidores MCP en Claude Code durante cuatro meses detalló los costos ocultos y la degradación del rendimiento que experimentó, junto con una solución concreta. El post es de lectura obligada para cualquiera que use MCP en producción.

Los números

Con 9 servidores (filesystem, GitHub, Stripe, Linear, Notion, Postgres, Sentry, AWS y personalizados) que exponen 142 herramientas en total, el inicio en frío consume 38k tokens de prompt del sistema + esquemas de herramientas en cada turno. A 200 turnos/día, eso son 7.6M tokens de entrada/día. Con los precios de Sonnet (~$15/M de salida, ~$3/M de entrada), eso son ~$23/día o ~$700/mes solo en definiciones de herramientas MCP, antes de cualquier trabajo real. La caché solo ayuda con prefijos idénticos; rotar un servidor MCP la invalida.

Lo que se rompe

La selección de herramientas se degrada: Con 142 herramientas en contexto, Claude empezó a elegir la herramienta incorrecta para consultas obvias (por ejemplo, usando linear_search_issues cuando se le pedía leer un archivo).
Enumeración lenta: Los servidores con muchos esquemas, como AWS, tardan de 4 a 6 segundos en listar herramientas.
Propagación silenciosa de errores: Una herramienta mal descrita puede contaminar la clasificación de todas las consultas relacionadas.

La solución: Patrón de puerta de enlace con BM25

El usuario cambió a un patrón de puerta de enlace usando Ratel, una biblioteca Rust de código abierto y en proceso con clasificación BM25. Ahora Claude solo ve tres herramientas: search_tools, invoke_tool y auth. Todo lo demás se clasifica bajo demanda. Resultados:

El inicio en frío bajó de 38k a ~4k tokens.
La selección incorrecta de herramientas casi se eliminó porque el modelo solo ve las 5 mejores clasificadas por consulta.
La configuración tomó 10 minutos (un solo comando hace la importación de Claude Code).

El autor señala que la mayoría de las startups "optimizadoras de MCP" son solo búsqueda BM25 disfrazada. Las descripciones de herramientas son cortas, estructuradas y llenas de coincidencias de palabras clave: no se necesita BD vectorial ni LLM en el bucle. BM25 sobre una proyección plana de nombre + descripción obtiene el 90% del beneficio de forma determinista en microsegundos, sin conexión.

Lección clave: "reemplazar" es mejor que "sugerir". Si tu puerta de enlace entrega 5 herramientas al modelo en lugar de 142, las matemáticas funcionan. Si sugiere 5 junto a 142, el modelo aún carga 142 y no ahorraste nada.

📖 Fuente original: r/ClaudeAI

Sobrecarga de contexto en MCP: Costos reales y una solución práctica para usuarios de Claude Code

Los números

Lo que se rompe

La solución: Patrón de puerta de enlace con BM25

👀 Ver también

Heddle: Aplicación de Confianza y Registro de Auditoría para Conexiones MCP de Claude Desktop

Claude Code vs. Codex: Prueba de construcción en el mundo real – 36 archivos vs. 28, bucle infinito y diferencia de costo de $0.46

OpenClaw Rastreador de Uso de Habilidades: Monitorea Qué Habilidades Usas Realmente

Soporte para MCP integrado en llama.cpp con nuevas funciones de la interfaz web