Шлюз контекста: открытый прокси для сжатия контекста ИИ-агентов

Что делает Context Gateway
Context Gateway — это агентский прокси, который располагается между AI-агентами для программирования (такими как Claude Code, OpenClaw или Cursor) и API LLM. Когда выходные данные инструментов, такие как чтение файлов или результаты grep, сбрасывают тысячи токенов в контекстное окно, прокси сжимает этот контент до того, как он достигнет LLM. Мотивация исходит из исследований, показывающих, что бенчмарки с длинным контекстом испытывают резкое падение точности по мере роста контекста — оценка GPT-5.4 от OpenAI, как сообщается, падает с 97,2% при 32 тыс. токенов до 36,6% при 1 млн токенов.
Как работает сжатие
Система использует небольшие языковые модели (SLM), которые анализируют внутренности модели и обучают классификаторы для обнаружения частей контекста, несущих наибольший сигнал. Когда инструмент возвращает вывод, сжатие происходит с учётом намерения вызова инструмента. Например, если агент вызвал grep для поиска шаблонов обработки ошибок, SLM сохраняет соответствующие совпадения и удаляет остальное. Если модели позже понадобится что-то, что было удалено, она может вызвать expand(), чтобы получить исходный вывод.
Ключевые особенности и настройка
- Фоновое сжатие: Запускается при заполнении окна на 85%, с предварительно вычисленными сводками, чтобы не ждать сжатия
- Ленивая загрузка описаний инструментов: Модель видит только инструменты, релевантные текущему шагу
- Лимиты расходов: Контролируйте затраты с помощью бюджетных ограничений
- Панель управления: Отслеживайте текущие и прошлые сессии
- Уведомления в Slack: Получайте оповещения, когда агент ждёт вас
- Поддерживаемые агенты: Claude Code, Cursor, OpenClaw или пользовательские конфигурации
Начало работы
Установите с помощью:
curl -fsSL https://compresr.ai/api/install | sh
Затем запустите context-gateway, чтобы запустить интерактивный TUI-мастер, который поможет вам:
- Выбрать агента (claude_code, cursor, openclaw или пользовательский)
- Создать/редактировать конфигурацию, включая модель-суммаризатор и API-ключ
- Включить уведомления в Slack при необходимости
- Установить порог срабатывания для сжатия (по умолчанию: 75%)
Инструмент является открытым исходным кодом, написан в основном на Go (90,9%) и поддерживается Compresr, компанией, поддержанной YC. Вы можете проверить логи сжатия в logs/history_compaction.jsonl, чтобы увидеть, что происходит под капотом.
📖 Прочитайте полный исходный код: HN LLM Tools
👀 Смотрите также

Создание геологических часов с помощью Claude Code: единый HTML + Three.js
Продуктовый дизайнер создал eona.earth — геологические часы, отображающие 4,5 миллиарда лет Земли за 12 часов, используя Claude Code, Three.js и пользовательские шейдеры WebGL, всё в одном HTML-файле без этапа сборки.

altRAG: Замените векторные базы данных RAG на 2KB файлы-указатели для AI-агентов программирования
altRAG — это инструмент на Python, который заменяет векторные базы данных RAG на лёгкие файлы-указатели. Он сканирует файлы навыков в формате Markdown/YAML, создавая скелетный файл размером 2 КБ, который сопоставляет разделы с точными номерами строк и смещениями в байтах, позволяя ИИ-агентам читать только нужные разделы вместо целых файлов.

AIMEAT: Самодостаточный протокол для ИИ-агентов, локальных LLM и общих возможностей
AIMEAT — это самодельный протокол и сервер, который позволяет людям, ИИ-агентам и локальным LLM обмениваться приложениями, знаниями и возможностями через HTTP/JSON. Никакой привязки к вендору, никакого специального SDK — обычные запросы и загрузки по URL.

Платформа ИИ Cloudflare: Единый уровень вывода для ИИ-агентов
AI-платформа Cloudflare предоставляет единый API для доступа к более чем 70 моделям от 12+ провайдеров, включая мультимодальную поддержку для изображений, видео и речевых моделей. Она позволяет переключаться между моделями изменением одной строки кода и предлагает централизованный мониторинг затрат с пользовательскими метаданными.