Ctxpact: Прокси-компрессор контекста для локальных LLM

✍️ OpenClawRadar📅 Опубликовано: 13 апреля 2026 г.🔗 Source
Ctxpact: Прокси-компрессор контекста для локальных LLM
Ad

Ctxpact — это лёгкий совместимый с OpenAI прокси, который располагается между AI-агентами и локальными LLM, чтобы интеллектуально сжимать слишком большие входные данные до того, как они попадут в модели с ограниченным окном контекста. Он разработан для агентных рабочих процессов, таких как OpenClaw и Hermes, которые отправляют полезные данные объёмом 100k+ токенов в модели с окном контекста всего 16k, где усечение привело бы к потере критической информации.

Как это работает

Система использует трёхэтапный конвейер сжатия:

  • DCP (Динамическая обрезка контекста): Удаляет дублирующиеся вызовы инструментов, убирает перезаписанные записи файлов, обрезает трассировки стека ошибок. Нулевые вызовы LLM, чисто структурные.
  • Суммаризация: Удаляет старые реплики диалога, заменяя их сгенерированными LLM суммами. Сохраняет скользящее окно последних реплик нетронутым.
  • Извлечение: Когда входные данные всё ещё слишком велики (например, роман на 110k токенов), использует одну из 16 стратегий извлечения, чтобы получить наиболее релевантный контент в рамках бюджета токенов.

Стратегии извлечения

Этап извлечения реализует 16 стратегий, от:

  • 0 вызовов LLM: Сходство эмбеддингов (ChromaDB), заголовки разделов, эвристический поиск по ключевым словам (grep), сжатие LLMLingua
  • 1 вызов LLM: LLM генерирует поисковые запросы, взвешенное по IDF сопоставление на уровне слов собирает контекст
  • 2 вызова LLM (лучшая точность): readagent — слияние эмбеддингов + BM25 + RRF, двойное расширение терминов LLM, извлечение с учётом позиции
  • N вызовов LLM: Многошаговые циклы вызова инструментов, генерация кода DSPy, чанкирование map-reduce

Результаты бенчмарков

Протестировано 12 стратегий на 2 моделях (LFM2-8B-A1B и Qwen3.5-9B) на 331 модели GGUF в общей сложности:

  • Тест "Франкенштейн": 110k токенов сжато до 12k токенов, 8 вопросов на понимание прочитанного; 8/8 правильных, детерминировано в 3 последовательных запусках, 0% вариативности
  • LoCoMo-MC10: Многосессионный диалог с вопросами-ответами, 10 вариантов, случайный базовый уровень — 10%; readagent + Qwen3.5-9B набирает 15/20 (75%)
  • Совокупная производительность: readagent + Qwen3.5-9B достигает 87.5%, rlm + Qwen3.5-9B достигает 80.0%
Ad

Ключевые выводы

  • Выбор модели важнее выбора стратегии: Переход с LFM2 на Qwen3.5 улучшил каждую отдельную стратегию на +25-50 процентных пунктов. Медианная стратегия перешла с 5/8 на 7/8 только за счёт смены модели.
  • NR-MMLU предсказывает производительность инженерии контекста: 47% NR-MMLU у LFM2 против 65% у Qwen3.5 напрямую соответствует различиям в точности.
  • 2 вызова LLM для извлечения — оптимальная точка: Переход от 0 к 1 вызову даёт значительный прирост; от 1 к 2 вызовам достигается пиковая точность. За пределами 2 вызовов точность падает.
  • readagent и rlm — прорывные стратегии: Обе достигают 8/8 на "Франкенштейне". Единственные стратегии, решающие вопрос Q4 (вопрос об Ирландии). readagent лидирует в кросс-доменных задачах с 75% на LoCoMo против 60% у rlm.

Технические детали

  • Архитектура: Автономный прокси (рассматривались плагин LiteLLM и sidecar-процесс), потому что прорывные стратегии требуют вызовов LLM в середине конвейера
  • Реализация: ~11k строк Python, сервер FastAPI, 3 эндпоинта, совместимость с OpenAI, без тяжёлых фреймворков
  • Совместимость: Подключается перед любым бэкендом llama-server / Ollama / vLLM. Без API-ключей, без облака, всё работает на вашем оборудовании

Для разработчиков, запускающих локальные LLM с агентными рабочими процессами, превышающими окна контекста, Ctxpact предоставляет практическое решение для сохранения целостности информации, оставаясь в рамках аппаратных ограничений.

📖 Read the full source: r/LocalLLaMA

Ad

👀 Смотрите также

Открытый MCP-сервер подключает Claude к API Mailchimp
Инструменты

Открытый MCP-сервер подключает Claude к API Mailchimp

Разработчик создал MCP-сервер для Mailchimp с использованием Claude Code, предоставляющий 53 инструмента для кампаний, аудиторий, отчетов, автоматизации и электронной коммерции со встроенными режимами безопасности и конфигурацией только для чтения.

OpenClawRadar
Claude Code v2.1.59 добавляет автоматическую память, команду копирования и улучшения оболочки.
Инструменты

Claude Code v2.1.59 добавляет автоматическую память, команду копирования и улучшения оболочки.

Claude Code v2.1.59 представляет автоматическое сохранение контекста в авто-память с управлением через /memory, добавляет команду /copy для интерактивного выбора блоков кода и улучшает префиксные подсказки для составных bash-команд.

OpenClawRadar
🦀
Инструменты

Интеграция xAI TTS для Home Assistant, созданная с помощью Claude — полный репозиторий

Разработчик использовал Claude для создания пользовательской интеграции Home Assistant для TTS API xAI (голос Eve) с полным UI-конфигурированием, пятью голосами и речевыми тегами.

OpenClawRadar
Локальный MCP-сервер подключает Claude к приложениям Mac без облака и токенов
Инструменты

Локальный MCP-сервер подключает Claude к приложениям Mac без облака и токенов

Local MCP — это нативный MCP-сервер для macOS, который предоставляет Claude Desktop, Cursor, Windsurf и VS Code доступ к данным Mail, Calendar, Teams и OneDrive на вашем Mac без облачной обработки или API-токенов.

OpenClawRadar