Reduciendo el uso de tokens MCP al reemplazar servidores con alternativas CLI

Optimización de tokens mediante reducción de servidores MCP
Un desarrollador descubrió que cada servidor MCP agregado a su configuración volcaba todo su esquema de herramientas en la ventana de contexto con cada mensaje, consumiendo entre el 30 y el 40% de su contexto disponible. Esto hacía que alcanzara los límites de contexto más rápido de lo esperado.
Reemplazos específicos de MCP a CLI
Después de auditar su configuración, identificaron varios servidores MCP que tenían equivalentes CLI e hicieron estos reemplazos:
agentmail mcp → agentmail cli(instalado mediantenpm install -g agentmail-cli) - permite que Claude gestione el buzón, envíe correos y verifique mensajes a través de bashgithub mcp → gh cli- usando comandos comogh issue createygh pr listpostgres mcp → psql- usando comandos comopsql -c "select * from users"
Servidores MCP mantenidos en la configuración
Se conservaron dos servidores MCP porque carecían de buenas alternativas CLI:
- playwright mcp - para tareas de automatización del navegador
- memory mcp - para funcionalidad de memoria persistente
Configuración resultante y regla
El desarrollador redujo su cantidad de servidores MCP de 6 a 2 mientras mantenía toda la funcionalidad anterior. Estableció una nueva regla: "si hay una CLI, omite el MCP. Solo agrega MCPs para cosas que genuinamente no tienen una opción de línea de comandos". Este cambio hizo que su ventana de contexto se sintiera más grande y redujo la frecuencia con la que alcanzaba los límites.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Reduzca los tokens de OpenClaw Boot en un 43% al reducir el tamaño de la herramienta y los archivos de memoria
Reduje los tokens de arranque de ~9,457 a ~5,400 (una reducción del 43%) al convertir TOOLS.md en un índice, mover los detalles de las herramientas a archivos separados e implementar la promoción de memoria por etapas.

Usando ntfy para notificaciones del agente OpenClaw
Un desarrollador comparte su experiencia usando la versión autoalojada de ntfy.sh para notificaciones push de agentes OpenClaw, evitando bots de Discord/Telegram al ejecutar ntfy serve en el mismo VPS y usando solicitudes HTTP POST.

Corrección de velocidad de procesamiento de prompts en Llama.cpp usando el parámetro --ubatch-size
Un usuario descubrió que ajustar --ubatch-size para que coincida con el tamaño de la caché L3 de la GPU (64MB para Radeon 9070XT) mejoró drásticamente la velocidad de procesamiento de prompts para modelos grandes como Qwen 27B en Llama.cpp, haciendo que la invocación de código Claude sea utilizable.

6 Tipos de Bucles Encontrados en Agentes de IA en Producción: Un Análisis de Registros de una Semana
Análisis de 670 eventos de 5 agentes de producción durante una semana revela 6 patrones de bucle de alta gravedad, incluyendo oscilación de decisiones, bucles de reintento, bucles de ping pong, bucles de lectura-escritura, bucles de reflexión y no determinismo de herramientas.