Sobrecarga de contexto en MCP: Costos reales y una solución práctica para usuarios de Claude Code

✍️ OpenClawRadar📅 Publicado: 19 de mayo de 2026🔗 Source
Sobrecarga de contexto en MCP: Costos reales y una solución práctica para usuarios de Claude Code
Ad

Un usuario de Reddit que ejecutó 9 servidores MCP en Claude Code durante cuatro meses detalló los costos ocultos y la degradación del rendimiento que experimentó, junto con una solución concreta. El post es de lectura obligada para cualquiera que use MCP en producción.

Los números

Con 9 servidores (filesystem, GitHub, Stripe, Linear, Notion, Postgres, Sentry, AWS y personalizados) que exponen 142 herramientas en total, el inicio en frío consume 38k tokens de prompt del sistema + esquemas de herramientas en cada turno. A 200 turnos/día, eso son 7.6M tokens de entrada/día. Con los precios de Sonnet (~$15/M de salida, ~$3/M de entrada), eso son ~$23/día o ~$700/mes solo en definiciones de herramientas MCP, antes de cualquier trabajo real. La caché solo ayuda con prefijos idénticos; rotar un servidor MCP la invalida.

Lo que se rompe

  • La selección de herramientas se degrada: Con 142 herramientas en contexto, Claude empezó a elegir la herramienta incorrecta para consultas obvias (por ejemplo, usando linear_search_issues cuando se le pedía leer un archivo).
  • Enumeración lenta: Los servidores con muchos esquemas, como AWS, tardan de 4 a 6 segundos en listar herramientas.
  • Propagación silenciosa de errores: Una herramienta mal descrita puede contaminar la clasificación de todas las consultas relacionadas.
Ad

La solución: Patrón de puerta de enlace con BM25

El usuario cambió a un patrón de puerta de enlace usando Ratel, una biblioteca Rust de código abierto y en proceso con clasificación BM25. Ahora Claude solo ve tres herramientas: search_tools, invoke_tool y auth. Todo lo demás se clasifica bajo demanda. Resultados:

  • El inicio en frío bajó de 38k a ~4k tokens.
  • La selección incorrecta de herramientas casi se eliminó porque el modelo solo ve las 5 mejores clasificadas por consulta.
  • La configuración tomó 10 minutos (un solo comando hace la importación de Claude Code).

El autor señala que la mayoría de las startups "optimizadoras de MCP" son solo búsqueda BM25 disfrazada. Las descripciones de herramientas son cortas, estructuradas y llenas de coincidencias de palabras clave: no se necesita BD vectorial ni LLM en el bucle. BM25 sobre una proyección plana de nombre + descripción obtiene el 90% del beneficio de forma determinista en microsegundos, sin conexión.

Lección clave: "reemplazar" es mejor que "sugerir". Si tu puerta de enlace entrega 5 herramientas al modelo en lugar de 142, las matemáticas funcionan. Si sugiere 5 junto a 142, el modelo aún carga 142 y no ahorraste nada.

📖 Fuente original: r/ClaudeAI

Ad

👀 Ver también

Semble: Un servidor MCP local para Claude Code con una reducción del 98% en tokens
Herramientas

Semble: Un servidor MCP local para Claude Code con una reducción del 98% en tokens

Semble es un servidor MCP de código abierto para Claude Code que reemplaza los flujos de trabajo basados en grep+read, utilizando embeddings, BM25 y reranking para reducir el uso de tokens en aproximadamente un 98% mientras indexa repositorios en unos 250ms.

OpenClawRadar
Contador para Startups: Habilidad Gratuita de Claude para el Seguimiento de Pequeñas Empresas
Herramientas

Contador para Startups: Habilidad Gratuita de Claude para el Seguimiento de Pequeñas Empresas

Startup Bookkeeper es una habilidad de Claude AI de código abierto que ayuda a los fundadores con recursos limitados a rastrear gastos categorizando transacciones a partir de descripciones en inglés sencillo, procesando fotos de recibos con OCR y generando paneles de control o estados de pérdidas y ganancias.

OpenClawRadar
Vida artificial: Una reproducción en Python de 300 líneas de la investigación de Vida Computacional
Herramientas

Vida artificial: Una reproducción en Python de 300 líneas de la investigación de Vida Computacional

Una implementación en Python que reproduce el artículo Computational Life, donde una cuadrícula de 240x135 de programas similares a Brainfuck interactúan y evolucionan código autorreplicante mediante emparejamiento aleatorio y concatenación de cintas de instrucciones.

OpenClawRadar
mnemos: Una Capa de Memoria Persistente para Agentes de Codificación de IA (Go, MCP-Nativo, Sin Python)
Herramientas

mnemos: Una Capa de Memoria Persistente para Agentes de Codificación de IA (Go, MCP-Nativo, Sin Python)

mnemos es una capa de memoria nativa de MCP para agentes de codificación de IA, escrita en Go. El autor construyó un verificador para medir la mejora: +40% agregado en escenarios de lectura, pero solo 53% de tasa de captura en escritura tras correcciones iterativas.

OpenClawRadar