Ctxpact: Proxy de Compactação de Contexto para LLMs Locais

Ctxpact é um proxy leve e compatível com OpenAI que fica entre agentes de IA e LLMs locais para comprimir inteligentemente entradas excessivamente grandes antes que elas atinjam modelos com janelas de contexto limitadas. Ele foi projetado para fluxos de trabalho agentivos como OpenClaw e Hermes que enviam cargas úteis de 100k+ tokens para modelos com apenas 16k de janela de contexto, onde o truncamento perderia informações críticas.
Como Funciona
O sistema usa um pipeline de compactação de 3 etapas:
- DCP (Poda Dinâmica de Contexto): Remove duplicatas de chamadas de ferramentas, remove gravações de arquivos substituídas, trunca rastreamentos de pilha de erros. Zero chamadas LLM, puramente estrutural.
- Sumarizar: Remove turnos antigos de conversa, substituindo-os por resumos gerados por LLM. Mantém uma janela deslizante de turnos recentes intacta.
- Extrair: Quando a entrada ainda é muito grande (como um romance de 110k), usa uma das 16 estratégias de extração para extrair o conteúdo mais relevante dentro do orçamento de tokens.
Estratégias de Extração
A etapa de extração implementa 16 estratégias que variam de:
- 0 chamadas LLM: Similaridade de embeddings (ChromaDB), cabeçalhos de seção, busca heurística por palavras-chave, compressão LLMLingua
- 1 chamada LLM: LLM gera termos de busca, correspondência ponderada por IDF em nível de palavra monta o contexto
- 2 chamadas LLM (melhor precisão): readagent — fusão de embedding + BM25 + RRF, expansão de termos com LLM duplo, extração com consciência de posição
- N chamadas LLM: Loops de chamadas de ferramentas multi-turno, geração de código DSPy, fragmentação map-reduce
Resultados de Benchmark
Testou 12 estratégias em 2 modelos (LFM2-8B-A1B e Qwen3.5-9B) em 331 modelos GGUF no total:
- Teste Frankenstein: 110k tokens comprimidos para 12k tokens, 8 questões de compreensão de leitura; 8/8 corretas, determinístico em 3 execuções consecutivas, 0% de variância
- LoCoMo-MC10: QA de conversa multi-sessão, 10 escolhas, linha de base aleatória é 10%; readagent + Qwen3.5-9B pontua 15/20 (75%)
- Desempenho combinado: readagent + Qwen3.5-9B alcança 87.5%, rlm + Qwen3.5-9B alcança 80.0%
Principais Descobertas
- A escolha do modelo importa mais que a escolha da estratégia: Mudar de LFM2 para Qwen3.5 melhorou cada estratégia individual em +25-50 pontos percentuais. A estratégia mediana foi de 5/8 para 7/8 apenas mudando o modelo.
- NR-MMLU prevê desempenho de engenharia de contexto: 47% NR-MMLU do LFM2 vs 65% do Qwen3.5 mapeia diretamente para diferenças de precisão.
- 2 chamadas de extração LLM é o ponto ideal: Ir de 0 para 1 chamada dá um impulso significativo; 1 para 2 chamadas atinge o pico de precisão. Além de 2 chamadas, a precisão cai.
- readagent e rlm são estratégias revolucionárias: Ambas alcançam 8/8 no Frankenstein. Únicas estratégias que resolvem Q4 (questão da Irlanda). readagent lidera cross-domain com 75% LoCoMo vs 60% do rlm.
Detalhes Técnicos
- Arquitetura: Proxy autônomo (considerou plugin LiteLLM e processo sidecar) porque estratégias revolucionárias precisam de chamadas LLM no meio do pipeline
- Implementação: ~11k linhas de Python, servidor FastAPI, 3 endpoints, compatível com OpenAI, sem frameworks pesados
- Compatibilidade: Colocado na frente de qualquer backend llama-server / Ollama / vLLM. Sem chaves de API, sem nuvem, tudo roda no seu hardware
Para desenvolvedores executando LLMs locais com fluxos de trabalho agentivos que excedem janelas de contexto, Ctxpact fornece uma solução prática para manter a integridade da informação enquanto permanece dentro das restrições de hardware.
📖 Read the full source: r/LocalLLaMA
👀 See Also
Pesquisador Desenvolve Habilidade de Verificação de Veracidade para Código Claude, Encontra Alucinações na Própria Documentação
Um pesquisador criou uma habilidade Claude Code chamada /veracity-tweaked-555 que decompõe documentos em afirmações atômicas e verifica cada uma via busca na web usando 16 agentes paralelos em 4 ondas. Quando autoauditada, a habilidade marcou 62/100 devido a estatísticas fabricadas e afirmações infladas em sua própria documentação.

TideSurf: Ferramenta de compressão DOM reduz uso de tokens de agentes web em 30 vezes, acelera TTFT em 12 vezes
O TideSurf v0.3 converte o DOM renderizado para um formato compactado semelhante a markdown, reduzindo o consumo de tokens em 32x em páginas do GitHub em comparação com o DOM bruto, enquanto adiciona 18 ferramentas interativas para agentes de LLM.

O Codesight CLI reduz o uso de tokens de agentes de IA de codificação ao escanear bases de código.
Codesight é uma ferramenta CLI sem dependências que analisa projetos TypeScript, Python e Go para gerar arquivos de contexto compactos, reduzindo os tokens de exploração do Claude Code em 12,3× em média, de acordo com benchmarks de codebases reais de produção.

FixAI: Jogo de Navegador Ensina Direito do Consumidor ao Combater Robôs Corporativos de IA
FixAI é um jogo de navegador com 36 níveis onde os jogadores argumentam contra sistemas de IA corporativos ou governamentais usando leis reais de consumo. Construído com Vanilla JS, Node/Express e Claude Haiku, ele apresenta um sistema de pontuação de resistência e explicações educacionais sobre argumentos legais.