MCP контекстное раздувание: реальные затраты и практическое решение для пользователей Claude Code

Пользователь Reddit, запускавший 9 серверов MCP в Claude Code в течение четырех месяцев, подробно описал скрытые затраты и снижение производительности, с которыми столкнулся, а также конкретное решение. Пост обязателен к прочтению для всех, кто использует MCP в продакшене.
Математика
С 9 серверами (файловая система, GitHub, Stripe, Linear, Notion, Postgres, Sentry, AWS и кастомный), предоставляющими в общей сложности 142 инструмента, холодный старт потребляет 38k токенов системного промпта + схем инструментов на каждом шаге. При 200 шагах в день это 7,6 млн входных токенов в день. По ценам Sonnet (~$15/M выходных, ~$3/M входных) это составляет ~$23/день или ~$700/месяц только за определение инструментов MCP — до начала реальной работы. Кэш помогает только при одинаковых префиксах; смена одного MCP-сервера инвалидирует его.
Что ломается
- Выбор инструмента ухудшается: С 142 инструментами в контексте Клод начал выбирать неправильный инструмент для очевидных запросов (например, использовал
linear_search_issues, когда его просили прочитать файл). - Медленное перечисление: Серверы с большими схемами, такие как AWS, занимают 4–6 секунд для вывода списка инструментов.
- Тихое распространение ошибок: Один плохо описанный инструмент может испортить ранжирование для всех связанных запросов.
Решение: Паттерн шлюза с BM25
Пользователь перешел на паттерн шлюза, используя Ratel — открытую библиотеку на Rust с ранжированием BM25, работающую в том же процессе. Теперь Клод видит только три инструмента: search_tools, invoke_tool и auth. Все остальное ранжируется по запросу. Результаты:
- Холодный старт снизился с 38k до ~4k токенов.
- Выбор неправильного инструмента почти устранен, потому что модель видит только топ-5, отсортированных по запросу.
- Настройка заняла 10 минут (одна команда для импорта в Claude Code).
Автор отмечает, что большинство стартапов по "оптимизации MCP" — это просто BM25-поиск под видом инновации. Описания инструментов короткие, структурированные и полные совпадений ключевых слов — не нужны ни векторная БД, ни LLM в цикле. BM25 по плоской проекции названия + описания дает 90% результата детерминистически за микросекунды, офлайн.
Ключевой урок: "заменить" лучше, чем "предложить". Если ваш шлюз дает модели 5 инструментов вместо 142, математика работает. Если он предлагает 5 вместе с 142, модель все равно загружает 142, и вы ничего не сэкономили.
📖 Источник: r/ClaudeAI
👀 Смотрите также

Плагин OpenClaw-Mem0 добавляет постоянную память за пределами окна контекста.
Плагин openclaw-mem0 полностью выносит хранилище памяти за пределы контекстного окна OpenClaw, предотвращая потерю данных из-за сжатия контекста или перезапуска сессий. Он обеспечивает автоматическое извлечение и сохранение воспоминаний с возможностью настройки как в облаке, так и локально.

Холодная архитектура валидации: система проверки кода с двумя агентами стала открытой
Система с открытым исходным кодом использует двух отдельных ИИ-агентов для проверки кода: один создаёт код, другой проверяет его, не имея никакого контекста о рассуждениях создателя. Проверяющий видит только план, изменения в коде и результаты тестов.

TruthGuard: Перехватчики в скриптах оболочки, которые ловят ложь AI-агентов для написания кода
TruthGuard — это инструмент с открытым исходным кодом, который использует хуки shell-скриптов для проверки того, что на самом деле делают Claude Code и Gemini CLI, в сравнении с их заявлениями. Он обнаруживает «фантомные» правки, ложь о кодах выхода, опасные сокращения и блокирует коммиты при провале тестов.

OpenObscure: Открытый локальный брандмауэр конфиденциальности для ИИ-агентов
OpenObscure — это открытый межсетевой экран для защиты приватности, работающий на устройстве и располагающийся между ИИ-агентами и провайдерами языковых моделей. Он использует FF1 Format-Preserving Encryption для шифрования персональных данных перед отправкой запроса с вашего устройства. Включает обнаружение PII с полнотой 99,7%, сканирование когнитивного межсетевого экрана и работает на macOS/Linux/Windows с поддержкой iOS/Android.