Pipeline MCP de llamada única reduce tokens de Claude Code 74%

Un desarrollador ha compartido su experiencia construyendo un motor de contexto (servidor MCP) que le da a Claude Code un gráfico de dependencias de bases de código, permitiéndole leer solo el código relevante en lugar de archivos completos. La herramienta reduce significativamente el uso de tokens al servir gráficos de dependencias y esqueletos en lugar de archivos sin procesar.

Problema original y solución inicial

Claude Code típicamente lee archivos completos y vuelca todo en el contexto, consumiendo tokens rápidamente. El enfoque inicial consistía en servir solo código relevante a través de MCP usando gráficos de dependencias y esqueletos en lugar de archivos sin procesar, lo que por sí solo redujo el uso de tokens en un 65%.

Ineficiencia identificada y solución

Los usuarios señalaron que el flujo de trabajo MCP en sí era ineficiente, con agentes haciendo múltiples viajes de ida y vuelta: llamando a get_context_capsule, leyendo el resultado, luego llamando a get_impact_graph, leyendo ese resultado, seguido de search_memory, y leyendo ese resultado. Esto creaba tres viajes de ida y vuelta con resultados superpuestos en el contexto.

La solución run_pipeline

El desarrollador lanzó una herramienta MCP de llamada única llamada run_pipeline que reemplaza el flujo de trabajo de múltiples pasos. La herramienta detecta automáticamente la intención (depurar/modificar/refactorizar/explorar) y ejecuta la combinación apropiada de búsqueda de contexto, análisis de impacto y recuperación de memoria en el servidor.

run_pipeline({
  task: "arreglar error de validación JWT",
  preset: "auto",
  max_tokens: 10000,
  observation: "JWT usa Ed25519" // guardar información en la misma llamada
})

Esta única llamada reemplaza 3-4 llamadas individuales. Los resultados se deduplican y fusionan dentro de un presupuesto de tokens antes de llegar a la ventana de contexto, resultando en aproximadamente un 60% menos de tokens de contexto en comparación con llamar a las herramientas individualmente. El parámetro observation permite a los agentes guardar información aprendida en la misma llamada sin un paso separado de save_observation. La memoria está vinculada a nodos del gráfico de código, por lo que cuando el código cambia, las observaciones se marcan automáticamente como obsoletas.

Características adicionales lanzadas

Canalización de observación pasiva: observador de archivos → diferencia hash blake3 → diferencias estructurales a nivel AST → autocorrelación con llamadas de herramientas → observaciones sin configuración
CLI que funciona sin VS Code: npm install -g vexp-cli
Ganchos de Git que no sobrescriben los existentes (bloques delimitados por marcadores)
Visualización de ahorro de tokens en la barra lateral de VS Code mostrando números reales con una ventana móvil de 24 horas

Disponibilidad

La herramienta es gratuita para probar con un generoso nivel gratuito que ofrece 2,000 nodos, funcionalidad básica de canalización y memoria completa de sesión. No se requiere cuenta ni clave API, y no realiza llamadas de red. La arquitectura central incluye un motor de gráficos en Rust y analizadores tree-sitter construidos por el desarrollador, con Claude Code ayudando en la capa de protocolo MCP, migraciones de esquema SQLite y plantillas de instrucciones de agentes.

📖 Leer la fuente completa: r/ClaudeAI