Ctxpact: Прокси-компрессор контекста для локальных LLM

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source

Ctxpact — это лёгкий совместимый с OpenAI прокси, который располагается между AI-агентами и локальными LLM, чтобы интеллектуально сжимать слишком большие входные данные до того, как они попадут в модели с ограниченным окном контекста. Он разработан для агентных рабочих процессов, таких как OpenClaw и Hermes, которые отправляют полезные данные объёмом 100k+ токенов в модели с окном контекста всего 16k, где усечение привело бы к потере критической информации.

Как это работает

Система использует трёхэтапный конвейер сжатия:

DCP (Динамическая обрезка контекста): Удаляет дублирующиеся вызовы инструментов, убирает перезаписанные записи файлов, обрезает трассировки стека ошибок. Нулевые вызовы LLM, чисто структурные.
Суммаризация: Удаляет старые реплики диалога, заменяя их сгенерированными LLM суммами. Сохраняет скользящее окно последних реплик нетронутым.
Извлечение: Когда входные данные всё ещё слишком велики (например, роман на 110k токенов), использует одну из 16 стратегий извлечения, чтобы получить наиболее релевантный контент в рамках бюджета токенов.

Стратегии извлечения

Этап извлечения реализует 16 стратегий, от:

0 вызовов LLM: Сходство эмбеддингов (ChromaDB), заголовки разделов, эвристический поиск по ключевым словам (grep), сжатие LLMLingua
1 вызов LLM: LLM генерирует поисковые запросы, взвешенное по IDF сопоставление на уровне слов собирает контекст
2 вызова LLM (лучшая точность): readagent — слияние эмбеддингов + BM25 + RRF, двойное расширение терминов LLM, извлечение с учётом позиции
N вызовов LLM: Многошаговые циклы вызова инструментов, генерация кода DSPy, чанкирование map-reduce

Результаты бенчмарков

Протестировано 12 стратегий на 2 моделях (LFM2-8B-A1B и Qwen3.5-9B) на 331 модели GGUF в общей сложности:

Тест "Франкенштейн": 110k токенов сжато до 12k токенов, 8 вопросов на понимание прочитанного; 8/8 правильных, детерминировано в 3 последовательных запусках, 0% вариативности
LoCoMo-MC10: Многосессионный диалог с вопросами-ответами, 10 вариантов, случайный базовый уровень — 10%; readagent + Qwen3.5-9B набирает 15/20 (75%)
Совокупная производительность: readagent + Qwen3.5-9B достигает 87.5%, rlm + Qwen3.5-9B достигает 80.0%

Ключевые выводы

Выбор модели важнее выбора стратегии: Переход с LFM2 на Qwen3.5 улучшил каждую отдельную стратегию на +25-50 процентных пунктов. Медианная стратегия перешла с 5/8 на 7/8 только за счёт смены модели.
NR-MMLU предсказывает производительность инженерии контекста: 47% NR-MMLU у LFM2 против 65% у Qwen3.5 напрямую соответствует различиям в точности.
2 вызова LLM для извлечения — оптимальная точка: Переход от 0 к 1 вызову даёт значительный прирост; от 1 к 2 вызовам достигается пиковая точность. За пределами 2 вызовов точность падает.
readagent и rlm — прорывные стратегии: Обе достигают 8/8 на "Франкенштейне". Единственные стратегии, решающие вопрос Q4 (вопрос об Ирландии). readagent лидирует в кросс-доменных задачах с 75% на LoCoMo против 60% у rlm.

Технические детали

Архитектура: Автономный прокси (рассматривались плагин LiteLLM и sidecar-процесс), потому что прорывные стратегии требуют вызовов LLM в середине конвейера
Реализация: ~11k строк Python, сервер FastAPI, 3 эндпоинта, совместимость с OpenAI, без тяжёлых фреймворков
Совместимость: Подключается перед любым бэкендом llama-server / Ollama / vLLM. Без API-ключей, без облака, всё работает на вашем оборудовании

Для разработчиков, запускающих локальные LLM с агентными рабочими процессами, превышающими окна контекста, Ctxpact предоставляет практическое решение для сохранения целостности информации, оставаясь в рамках аппаратных ограничений.

📖 Read the full source: r/LocalLLaMA

👀 Смотрите также

Инструменты

Изучение взаимодействий между API: более детальный взгляд на автоматизацию

Недавнее обсуждение на Reddit погружается в тонкости телефонных звонков между API, сосредоточив внимание на практической реализации и возможных проблемах с использованием таких инструментов, как Postman и Twilio.

20 апр. 2026 г., 17:38 UTC

OpenClawRadar

Инструменты

Клод ИИ создал визуализатор данных об НЛО на основе правительственных данных за несколько часов

Пользователь Reddit использовал ИИ Claude для создания полнофункционального визуализатора наблюдений НЛО на основе недавно опубликованных данных Министерства обороны США, размещенного на Cloudflare, всего за несколько часов.

9 мая 2026 г., 02:19 UTC

OpenClawRadar

Инструменты

Zerro: Укажите на ваше живое приложение, говорите, и смотрите, как Claude Code мгновенно редактирует его

Zerro — это приложение для Mac, которое позволяет наводить курсор на работающее приложение, вслух описывать изменения, а Claude Code редактирует реальные файлы в реальном времени. Оно отслеживает движение, определяет, какой элемент вы имеете в виду, и создает контрольные точки перед каждым запуском.

2 июл. 2026 г., 00:18 UTC

OpenClawRadar

Инструменты

BrightBean Studio: Открытая платформа для управления социальными сетями, созданная на основе AI-агентов

BrightBean Studio — это платформа с открытым исходным кодом для управления социальными сетями, которую можно разместить на собственном сервере. Она поддерживает более 10 платформ с прямыми интеграциями через официальные API. Проект был создан за 3 недели с использованием Claude и Codex.

16 апр. 2026 г., 16:45 UTC

OpenClawRadar