Ctxpact: Proxy de Compactação de Contexto para LLMs Locais

Ctxpact é um proxy leve e compatível com OpenAI que fica entre agentes de IA e LLMs locais para comprimir inteligentemente entradas excessivamente grandes antes que elas atinjam modelos com janelas de contexto limitadas. Ele foi projetado para fluxos de trabalho agentivos como OpenClaw e Hermes que enviam cargas úteis de 100k+ tokens para modelos com apenas 16k de janela de contexto, onde o truncamento perderia informações críticas.

Como Funciona

O sistema usa um pipeline de compactação de 3 etapas:

DCP (Poda Dinâmica de Contexto): Remove duplicatas de chamadas de ferramentas, remove gravações de arquivos substituídas, trunca rastreamentos de pilha de erros. Zero chamadas LLM, puramente estrutural.
Sumarizar: Remove turnos antigos de conversa, substituindo-os por resumos gerados por LLM. Mantém uma janela deslizante de turnos recentes intacta.
Extrair: Quando a entrada ainda é muito grande (como um romance de 110k), usa uma das 16 estratégias de extração para extrair o conteúdo mais relevante dentro do orçamento de tokens.

Estratégias de Extração

A etapa de extração implementa 16 estratégias que variam de:

0 chamadas LLM: Similaridade de embeddings (ChromaDB), cabeçalhos de seção, busca heurística por palavras-chave, compressão LLMLingua
1 chamada LLM: LLM gera termos de busca, correspondência ponderada por IDF em nível de palavra monta o contexto
2 chamadas LLM (melhor precisão): readagent — fusão de embedding + BM25 + RRF, expansão de termos com LLM duplo, extração com consciência de posição
N chamadas LLM: Loops de chamadas de ferramentas multi-turno, geração de código DSPy, fragmentação map-reduce

Resultados de Benchmark

Testou 12 estratégias em 2 modelos (LFM2-8B-A1B e Qwen3.5-9B) em 331 modelos GGUF no total:

Teste Frankenstein: 110k tokens comprimidos para 12k tokens, 8 questões de compreensão de leitura; 8/8 corretas, determinístico em 3 execuções consecutivas, 0% de variância
LoCoMo-MC10: QA de conversa multi-sessão, 10 escolhas, linha de base aleatória é 10%; readagent + Qwen3.5-9B pontua 15/20 (75%)
Desempenho combinado: readagent + Qwen3.5-9B alcança 87.5%, rlm + Qwen3.5-9B alcança 80.0%

Principais Descobertas

A escolha do modelo importa mais que a escolha da estratégia: Mudar de LFM2 para Qwen3.5 melhorou cada estratégia individual em +25-50 pontos percentuais. A estratégia mediana foi de 5/8 para 7/8 apenas mudando o modelo.
NR-MMLU prevê desempenho de engenharia de contexto: 47% NR-MMLU do LFM2 vs 65% do Qwen3.5 mapeia diretamente para diferenças de precisão.
2 chamadas de extração LLM é o ponto ideal: Ir de 0 para 1 chamada dá um impulso significativo; 1 para 2 chamadas atinge o pico de precisão. Além de 2 chamadas, a precisão cai.
readagent e rlm são estratégias revolucionárias: Ambas alcançam 8/8 no Frankenstein. Únicas estratégias que resolvem Q4 (questão da Irlanda). readagent lidera cross-domain com 75% LoCoMo vs 60% do rlm.

Detalhes Técnicos

Arquitetura: Proxy autônomo (considerou plugin LiteLLM e processo sidecar) porque estratégias revolucionárias precisam de chamadas LLM no meio do pipeline
Implementação: ~11k linhas de Python, servidor FastAPI, 3 endpoints, compatível com OpenAI, sem frameworks pesados
Compatibilidade: Colocado na frente de qualquer backend llama-server / Ollama / vLLM. Sem chaves de API, sem nuvem, tudo roda no seu hardware

Para desenvolvedores executando LLMs locais com fluxos de trabalho agentivos que excedem janelas de contexto, Ctxpact fornece uma solução prática para manter a integridade da informação enquanto permanece dentro das restrições de hardware.

📖 Read the full source: r/LocalLLaMA