Ctxpact: Прокси-компрессор контекста для локальных LLM

Ctxpact — это лёгкий совместимый с OpenAI прокси, который располагается между AI-агентами и локальными LLM, чтобы интеллектуально сжимать слишком большие входные данные до того, как они попадут в модели с ограниченным окном контекста. Он разработан для агентных рабочих процессов, таких как OpenClaw и Hermes, которые отправляют полезные данные объёмом 100k+ токенов в модели с окном контекста всего 16k, где усечение привело бы к потере критической информации.
Как это работает
Система использует трёхэтапный конвейер сжатия:
- DCP (Динамическая обрезка контекста): Удаляет дублирующиеся вызовы инструментов, убирает перезаписанные записи файлов, обрезает трассировки стека ошибок. Нулевые вызовы LLM, чисто структурные.
- Суммаризация: Удаляет старые реплики диалога, заменяя их сгенерированными LLM суммами. Сохраняет скользящее окно последних реплик нетронутым.
- Извлечение: Когда входные данные всё ещё слишком велики (например, роман на 110k токенов), использует одну из 16 стратегий извлечения, чтобы получить наиболее релевантный контент в рамках бюджета токенов.
Стратегии извлечения
Этап извлечения реализует 16 стратегий, от:
- 0 вызовов LLM: Сходство эмбеддингов (ChromaDB), заголовки разделов, эвристический поиск по ключевым словам (grep), сжатие LLMLingua
- 1 вызов LLM: LLM генерирует поисковые запросы, взвешенное по IDF сопоставление на уровне слов собирает контекст
- 2 вызова LLM (лучшая точность): readagent — слияние эмбеддингов + BM25 + RRF, двойное расширение терминов LLM, извлечение с учётом позиции
- N вызовов LLM: Многошаговые циклы вызова инструментов, генерация кода DSPy, чанкирование map-reduce
Результаты бенчмарков
Протестировано 12 стратегий на 2 моделях (LFM2-8B-A1B и Qwen3.5-9B) на 331 модели GGUF в общей сложности:
- Тест "Франкенштейн": 110k токенов сжато до 12k токенов, 8 вопросов на понимание прочитанного; 8/8 правильных, детерминировано в 3 последовательных запусках, 0% вариативности
- LoCoMo-MC10: Многосессионный диалог с вопросами-ответами, 10 вариантов, случайный базовый уровень — 10%; readagent + Qwen3.5-9B набирает 15/20 (75%)
- Совокупная производительность: readagent + Qwen3.5-9B достигает 87.5%, rlm + Qwen3.5-9B достигает 80.0%
Ключевые выводы
- Выбор модели важнее выбора стратегии: Переход с LFM2 на Qwen3.5 улучшил каждую отдельную стратегию на +25-50 процентных пунктов. Медианная стратегия перешла с 5/8 на 7/8 только за счёт смены модели.
- NR-MMLU предсказывает производительность инженерии контекста: 47% NR-MMLU у LFM2 против 65% у Qwen3.5 напрямую соответствует различиям в точности.
- 2 вызова LLM для извлечения — оптимальная точка: Переход от 0 к 1 вызову даёт значительный прирост; от 1 к 2 вызовам достигается пиковая точность. За пределами 2 вызовов точность падает.
- readagent и rlm — прорывные стратегии: Обе достигают 8/8 на "Франкенштейне". Единственные стратегии, решающие вопрос Q4 (вопрос об Ирландии). readagent лидирует в кросс-доменных задачах с 75% на LoCoMo против 60% у rlm.
Технические детали
- Архитектура: Автономный прокси (рассматривались плагин LiteLLM и sidecar-процесс), потому что прорывные стратегии требуют вызовов LLM в середине конвейера
- Реализация: ~11k строк Python, сервер FastAPI, 3 эндпоинта, совместимость с OpenAI, без тяжёлых фреймворков
- Совместимость: Подключается перед любым бэкендом llama-server / Ollama / vLLM. Без API-ключей, без облака, всё работает на вашем оборудовании
Для разработчиков, запускающих локальные LLM с агентными рабочими процессами, превышающими окна контекста, Ctxpact предоставляет практическое решение для сохранения целостности информации, оставаясь в рамках аппаратных ограничений.
📖 Read the full source: r/LocalLLaMA
👀 Смотрите также

Открытый MCP-сервер подключает Claude к API Mailchimp
Разработчик создал MCP-сервер для Mailchimp с использованием Claude Code, предоставляющий 53 инструмента для кампаний, аудиторий, отчетов, автоматизации и электронной коммерции со встроенными режимами безопасности и конфигурацией только для чтения.

Claude Code v2.1.59 добавляет автоматическую память, команду копирования и улучшения оболочки.
Claude Code v2.1.59 представляет автоматическое сохранение контекста в авто-память с управлением через /memory, добавляет команду /copy для интерактивного выбора блоков кода и улучшает префиксные подсказки для составных bash-команд.
Интеграция xAI TTS для Home Assistant, созданная с помощью Claude — полный репозиторий
Разработчик использовал Claude для создания пользовательской интеграции Home Assistant для TTS API xAI (голос Eve) с полным UI-конфигурированием, пятью голосами и речевыми тегами.

Локальный MCP-сервер подключает Claude к приложениям Mac без облака и токенов
Local MCP — это нативный MCP-сервер для macOS, который предоставляет Claude Desktop, Cursor, Windsurf и VS Code доступ к данным Mail, Calendar, Teams и OneDrive на вашем Mac без облачной обработки или API-токенов.