Calmkeep: Uma Camada de Continuidade Externa para Combater a Deriva de LLM em Sessões Estendidas

✍️ OpenClawRadar📅 Publicado: March 17, 2026🔗 Source
Calmkeep: Uma Camada de Continuidade Externa para Combater a Deriva de LLM em Sessões Estendidas
Ad

Abordando a Deriva de LLMs em Fluxos de Trabalho Profissionais

Calmkeep é uma camada de continuidade externa construída especificamente para neutralizar o que o criador chama de "deriva estrutural" em LLMs durante sessões prolongadas. Essa deriva ocorre quando LLMs como o Claude gradualmente abandonam decisões, padrões ou estruturas anteriores, mesmo quando a janela de contexto completa ainda os contém—não por meio de alucinação, mas por meio do abandono sistemático de padrões estabelecidos.

Resultados e Metodologia de Teste

O criador conduziu auditorias adversariais usando o próprio Claude como sistema de avaliação, com metodologia cega e pontuação contra critérios estabelecidos nos primeiros cinco turnos. O Claude consistentemente classificou as transcrições do Calmkeep mais altas do que sua própria saída.

Teste de Construção de Backend de 25 Turnos

  • Claude Padrão: 60% de integridade final, 8 violações arquiteturais, coeficiente de deriva de 40%
  • Calmkeep: 85% de integridade, 3 violações arquiteturais, zero retrocesso pós-T14

O exemplo mais revelador: o Claude introduziu middleware Zod no turno 14, então imediatamente reverteu para parseInt bruto para os próximos três módulos como se a atualização nunca tivesse acontecido.

Ad

Sessão Jurídica/Estratégica de 25 Turnos

  • Claude Padrão: 50% de integridade estratégica, 5 violações incluindo uma mudança jurisdicional que invalidou a estrutura jurídica anterior, ~35% de exposição a má prática
  • Calmkeep: 100% de integridade, zero violações, <5% de risco

Implementação Técnica

Calmkeep inclui:

  • Conector MCP
  • Plugin Claude Code
  • SDK Python

O sistema opera apenas como runtime externo, requer trazer sua própria chave Anthropic, não tem memória oculta e não faz modificações de peso no modelo subjacente.

Disponibilidade e Testes

Uma avaliação gratuita de 14 dias está disponível via Stripe em https://calmkeep.ai. Relatórios completos de teste, metodologia, classificações AVE, rubrica de pontuação e detalhamentos turno a turno estão disponíveis em:

  • https://calmkeep.ai/codetestreport
  • https://calmkeep.ai/legaltestreport

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Agentes Subordinados Paralelos no Claude Code: Quando Eles Economizam vs. Queimam Tokens
Tools

Agentes Subordinados Paralelos no Claude Code: Quando Eles Economizam vs. Queimam Tokens

Anthropic relata que sistemas multiagente usam cerca de 15× mais tokens que um chat único, mas o cache de prompt oferece 90% de desconto nos tokens. Se subagentes economizam ou queimam dinheiro depende das taxas de acerto do cache.

OpenClawRadar
OpenClaw PARA Habilidade Organiza Arquivos Automaticamente Usando o Método de Tiago Forte
Tools

OpenClaw PARA Habilidade Organiza Arquivos Automaticamente Usando o Método de Tiago Forte

Um desenvolvedor criou uma habilidade para o OpenClaw que impõe o método PARA (Projetos, Áreas, Recursos, Arquivos) para organização automática de arquivos, movendo arquivos de um diretório raiz bagunçado para pastas estruturadas.

OpenClawRadar
O Aplicativo de Viagens Gullivr Integra-se ao Claude via Servidor MCP Remoto
Tools

O Aplicativo de Viagens Gullivr Integra-se ao Claude via Servidor MCP Remoto

Um desenvolvedor criou o Gullivr, um aplicativo de planejamento de viagens com um servidor MCP remoto que permite ao Claude criar e gerenciar viagens diretamente no aplicativo. A integração permite atualizações em tempo real enquanto conversa com o Claude, eliminando a cópia manual entre ferramentas.

OpenClawRadar
GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código
Tools

GitVelocity: Pontuação por IA de 50 mil PRs Revela Insights sobre Complexidade de Código

O GitVelocity usa o Claude para pontuar pull requests mesclados de 0 a 100 em seis dimensões: escopo, arquitetura, implementação, risco, qualidade e desempenho/segurança. Após analisar mais de 50.000 PRs em TypeScript, Python, Rust, Go, Java e Elixir, a equipe encontrou padrões surpreendentes sobre o tamanho dos PRs, cobertura de testes e adoção de IA.

OpenClawRadar