CAL: Otimização de Contexto para Agentes de LLM com 83% Menos Tokens

O que o CAL faz

CAL é uma biblioteca Python que fica entre seu código existente e as chamadas de API de LLM, selecionando, comprimindo e montando o contexto de forma inteligente para cada solicitação. Ele aborda os problemas de custo e contexto em configurações de agentes com muitos tokens, particularmente relevante com as recentes mudanças nas assinaturas Claude Pro/Max.

Benchmarks de Desempenho

Em produção com Claude Opus 4 e 103 blocos de contexto:

Sem CAL: Cada solicitação envia todos os 103 blocos (~23.000 tokens) a US$ 0,043 por solicitação
Com CAL: Reduz para ~6 blocos e 4.100 tokens a US$ 0,008 por solicitação
Resultados: Redução de 83% nos tokens, redução de 81% no custo

Validado com 5.000 prompts do WildChat (um conjunto de dados acadêmico aberto de conversas reais de LLM em 57 idiomas) com economia média de 97,6%.

Principais Recursos

Seletor: Pontuação ponderada por IDF seleciona apenas blocos relevantes por consulta. Usa prefixo estável + blocos dinâmicos selecionados por solicitação.
Esboços de Ferramentas: Carregamento preguiçoso de ferramentas em três níveis com esboços leves até que o modelo sinalize intenção de usar uma ferramenta específica.
Motor de Custos: Calculadora de economia consciente do provedor que conhece os 4 níveis de entrada da Anthropic e os preços de armazenamento em cache do Google.
Supressão de Ruído: Piso IDF + portas require-any para impedir que palavras comuns carreguem blocos irrelevantes em cada solicitação.
Ordenação Estável em Cache: Usa pontuações apenas para seleção, depois ordem alfabética para posição para manter os acertos de cache.

Detalhes Técnicos

Manipulação de contexto multi-turn: Esboços de ferramentas são conscientes do histórico. Se o modelo usou uma ferramenta em um turno anterior, o esquema completo permanece carregado para manter a continuidade da conversa.

Suporte a provedores: CAL é agnóstico ao provedor e funciona com qualquer provedor que tenha um endpoint de conclusões de chat. O motor de custos já lida com os 4 níveis de entrada da Anthropic e os preços de armazenamento em cache do Google.

Casos extremos: Usa pisos IDF e supressão de ruído para consultas ambíguas. Pontuação híbrida de palavras-chave+semântica está no roteiro.