Apideck CLI: Низкоконтекстная альтернатива MCP для AI-агентов

Проблема контекстного окна MCP
В статье описывается конкретный сценарий: подключение GitHub, Slack и Sentry через MCP-серверы (всего около 40 инструментов) потребляет более 55 000 токенов ещё до того, как агент обработает хотя бы одно сообщение пользователя. Это более четверти лимита Claude в 200 тыс. токенов. Каждое определение инструмента MCP стоит 550–1400 токенов за своё название, описание, JSON-схему, описания полей, перечисления и системные инструкции.
Одна команда сообщила, что три MCP-сервера потребляют 143 000 из 200 000 токенов (72% контекстного окна), оставляя лишь 57 000 токенов для фактического диалога, извлечённых документов, рассуждений и ответа.
Дэвид Чжан (@dzhng), создающий Duet, описал полное удаление MCP-интеграций из-за «трилеммы»: загрузить всё заранее и потерять рабочую память, ограничить интеграции, чтобы агент мог общаться лишь с несколькими сервисами, или построить динамическую загрузку инструментов, что добавляет задержку и сложность промежуточного слоя.
Результаты бенчмарков
Бенчмарк от Scalekit, проведший 75 прямых сравнений (та же модель: Claude Sonnet 4, те же задачи, те же промпты), показал:
- MCP стоит в 4–32 раза больше токенов, чем CLI, для идентичных операций
- Проверка языка репозитория потребовала 1365 токенов через CLI против 44 026 через MCP
- Накладные расходы почти полностью приходятся на схемы: 43 определения инструментов внедряются в каждый диалог, из которых агент использует один или два
Подход Apideck CLI
Apideck CLI использует промпт агента примерно на 80 токенов, который заменяет десятки тысяч токенов схем. Он включает прогрессивное раскрытие через --help и структурную безопасность, встроенную в бинарный файл. Любой агент, способный выполнять shell-команды, может использовать его без необходимости поддержки протокола.
Реакция индустрии на раздувание контекста
В статье выделяются три подхода в индустрии:
- MCP с трюками сжатия: Сжимать схемы, использовать поиск инструментов для загрузки определений по требованию или строить промежуточный слой, который разбивает OpenAPI-спецификации на меньшие части. Это работает для небольших, чётко определённых взаимодействий, но добавляет потребность в инфраструктуре (реестр инструментов, логика поиска, кэширование, маршрутизация).
- Интерфейсы, ориентированные на CLI: Подход, выбранный Apideck CLI.
- Нативные для агентов протоколы: Упомянуты, но не детализированы в предоставленном исходном тексте.
📖 Read the full source: HN AI Agents
👀 Смотрите также

Atoo Studio: Открытая рабочая среда для управления рабочими процессами с кодом Claude в нескольких проектах
Atoo Studio — это открытая рабочая среда, созданная для решения проблемы хаоса в терминалах и вкладках при использовании Claude Code в нескольких проектах. Она вводит ветвление сессий по аналогии с ветками Git и позволяет продолжать работу между Claude Code, Codex CLI и Gemini CLI.

Qwen 3.6 27B достигает 2.5-кратного ускорения при спекулятивном декодировании MTP на llama.cpp
Пользователь Reddit сообщает о 2.5-кратном ускорении инференса Qwen 3.6 27B с использованием спекулятивного декодирования MTP и кастомного PR для llama.cpp, достигая 28 ток/с на Mac M2 Max 96GB. Включает предварительно конвертированные GGUF квантизации и исправленные шаблоны чатов.

Ouroboros добавляет режим интервью с менеджером проектов для Claude Code, чтобы сократить разрыв между спецификациями.
Теперь Ouroboros включает режим PM, который запускает управляемое интервью перед передачей задачи Claude Code, задавая вопросы о решаемой проблеме, целевой аудитории и важных ограничениях. Результатом является документ PRD/PM с целями, пользовательскими историями, ограничениями, критериями успеха, предположениями и отложенными задачами.

Ctxpact: Прокси-компрессор контекста для локальных LLM
Ctxpact — это совместимый с OpenAI прокси, который сжимает слишком большие входные данные для локальных LLM с окном контекста 16k, используя трёхэтапный конвейер, включающий стратегии DCP, суммаризации и извлечения. Бенчмарки показывают сжатие 110k токенов до 12k с точностью понимания прочитанного 8/8.