Pesquisador Desenvolve Habilidade de Verificação de Veracidade para Código Claude, Encontra Alucinações na Própria Documentação
Arquitetura da Habilidade de Verificação de Veracidade
Um pesquisador com formação em ciência do sono da Universidade de Miami criou uma habilidade Claude Code chamada /veracity-tweaked-555 que decompõe documentos em afirmações atômicas e verifica cada uma via busca na web. A ferramenta usa 16 agentes paralelos em 4 ondas por execução e foi construída em colaboração com o Claude Code (Opus 4.6), onde o Claude redigiu o código enquanto o pesquisador projetou a metodologia.
Resultados da Autoauditoria e Padrões de Erro
Quando o pesquisador executou o verificador de veracidade em sua própria documentação SKILL.md, ele marcou 62 de 100. A habilidade projetada para detectar alucinações tinha fatos alucinados em sua própria documentação, incluindo:
- Fabricar uma estatística de desempenho ("3x mais preciso" para SAFE, o que o artigo nunca afirma)
- Inflar uma afirmação de melhoria de um artigo ("+35,5%" era na verdade +5,5% sobre o estado da arte)
- Fabricar uma expansão de sigla para uma técnica real
Após correções iniciais, a pontuação atingiu 80, depois 84 após uma terceira execução. Uma semana depois, após um loop de convergência mais rigoroso com 6 execuções, 19 agentes e 35 correções adicionais, estabilizou em 96,5/100. No entanto, a auditoria v3 caiu para 74 porque as correções da v1 haviam introduzido novos erros (um custo de token subestimado e uma lista de ferramentas incompleta).
Os erros seguem padrões consistentes: inflação de atribuição (linguagem ligeiramente mais forte do que a fonte justifica), identificadores plausíveis, mas fabricados (PMIDs, IDs arXiv que parecem reais, mas apontam para artigos diferentes) e estatísticas desatualizadas apresentadas como atuais.
Desafio da Engenharia de Contexto
Uma única execução de auditoria gera aproximadamente 917K tokens entre 16 agentes, excedendo a janela de contexto de 200K do Claude Code. Quando o Claude Code compacta conversas para permanecer dentro dos limites, ele realiza compressão com perdas. Após algumas compactações, o agente perde o rastreamento de como as descobertas se relacionam entre si — qual correção causou qual regressão, qual afirmação contradiz qual outra afirmação. Fatos individuais (nomes, números, assinaturas de função) sobrevivem melhor do que as conexões entre eles.
O diagnóstico do Claude foi que informações relacionais — cadeias causais, referências cruzadas, dependências de múltiplas etapas — são mais difíceis de preservar em um resumo do que fatos isolados.
Solução e Auditorias Adicionais de Habilidades
O pesquisador resolveu isso criando uma habilidade companheira chamada /context-engineer que prevê o estouro antes que aconteça e externaliza o estado relacional para arquivos JSON no disco. O teste de design: se você pode /clear toda a sua conversa e retomar apenas do arquivo de estado, a arquitetura está correta.
A execução de verificações de veracidade em outras habilidades Claude Code revelou:
- Uma habilidade tinha um título de artigo fabricado em sua seção de atribuição — a citação parecia perfeita (autores, veículo), mas o título era fabricado e o ano estava errado
- A mesma habilidade atribuiu erroneamente uma estrutura de auditoria ao órgão de normatização errado, aparecendo em vários locais
- A habilidade
/context-engineertinha inconsistências internas — a prosa dizia "5-10K tokens" enquanto uma tabela dizia "5-15K tokens" para a mesma métrica
Foram necessárias 12 correções no total em todas as habilidades. Todas passaram com 95+ em 3 execuções consecutivas após as correções.
📖 Leia a fonte completa: r/ClaudeAI
👀 See Also

Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude
Um usuário do Reddit testou várias alternativas de agentes de IA para programação após a descontinuação do plano de programação do Claude, incluindo Kimi (US$ 20/mês), Minimax (US$ 10/mês), Z.AI GLM (US$ 10/mês), Stepfun (US$ 6-10/mês), Mistral (US$ 15/mês) e Arcee Trinity (baseado em API).

Engram v1.0.0: Memória Persistente para LLMs Locais via Grafo de Conhecimento
Engram é um binário único que fornece memória persistente para LLMs locais através de um sistema de grafo de conhecimento. Inclui um servidor MCP para integração com Claude Code, Cursor e Windsurf, armazena todos os dados em um único arquivo .brain e funciona totalmente offline.

Claude Code LSP: Habilitando o Protocolo de Servidor de Linguagem para Navegação de Código Mais Rápida e Precis
O Claude Code é enviado sem o LSP ativado por padrão, mas ativá-lo transforma a navegação de código de buscas grep de 30-60 segundos para consultas de 50ms com 100% de precisão. A configuração requer uma flag descoberta através de uma issue do GitHub, em vez da documentação oficial.

MonClaw: Uma Implementação Mínima do OpenClaw Usando o SDK OpenCode
Uma alternativa leve ao OpenClaw construída sobre o SDK OpenCode, com suporte para Telegram e WhatsApp.