Compactação de Sessão do Claude: Precisão Cai para 5/10 e Como Evitar

Como a Compactação Funciona

As sessões do Claude são armazenadas como arquivos JSONL em ~/.claude/projects/{encoded-cwd}/sessions/{id}.jsonl. Cada turno de conversa é um bloco JSON. Quando a compactação é acionada, os blocos originais permanecem no arquivo, mas um novo bloco com um resumo compactado é anexado. Após a compactação, o modelo trabalha a partir do resumo em vez do histórico completo da conversa.

Resultados dos Testes

Com um projeto de programação em 90% de preenchimento de contexto (antes do aumento para 1 milhão de tokens), o usuário testou 10 questões cobrindo recuperação simples, cadeias de dependência de 6 saltos, desambiguação de entidades, encadeamento de negações, detecção de ausência e detecção de conflitos.

Pré-compactação: ~9,75/10 de precisão com Opus 4.6 encontrando fatos dispersos em 418 mil tokens
Pós-compactação (Padrão): ~5/10 de precisão com 3.461 tokens (compactação de 121x). A mesma sessão, as mesmas questões resultaram em respostas incorretas alucinadas.
Pós-compactação (Manual Opus): ~9,75/10 de precisão com 6.080 tokens (compactação de 69x). Usar um prompt de compactação personalizado com Opus preservou informações importantes.

Por que a Diferença

De acordo com a documentação da Anthropic, a API usa por padrão o mesmo modelo para compactação. O usuário estava executando Opus 4.6 em computação média, então a compactação padrão deveria ter usado Opus também. A diferença de qualidade sugere problemas com o prompt de sumarização, o orçamento de pensamento/computação, ou ambos.

Soluções Alternativas

Abordagem 1: Compactação Opus - Desative a compactação automática e implemente um processo em segundo plano que mede a contagem de tokens para instâncias do Claude Code. Acione a compactação usando Opus com um prompt personalizado (potencialmente com autorização do usuário).

Abordagem 2: Pré-preenchimento com spaCy NER - Em vez de iniciar subagentes com contexto zero, use spaCy NER para extrair nomes próprios, números, nomes de serviços, portas e identificadores-chave dos arquivos do projeto. Injete isso como um briefing leve de entidades (algumas centenas de tokens) na inicialização para informar os agentes sobre recursos existentes sem inflar a narrativa.

📖 Leia a fonte completa: r/ClaudeAI

Problemas de Compactação de Sessão do Claude AI e Soluções Alternativas

Como a Compactação Funciona

Resultados dos Testes

Por que a Diferença

Soluções Alternativas

👀 See Also

O Krasis LLM Runtime Apresenta Melhorias de 8,9x na Velocidade de Preenchimento e 4,7x na Velocidade de Decodificação em Relação ao Llama.cpp

Interface de Usuário e Servidor para Autoencoders de Linguagem Natural da Anthropic no llama.cpp

Claude-Skills Maintainer Solicita Feedback sobre Biblioteca de 181 Habilidades de Agentes

InsForge: Uma Camada Semântica de Backend para Agentes de Código Claude