Pesquisador Desenvolve Habilidade de Verificação de Veracidade para Código Claude, Encontra Alucinações na Própria Documentação

✍️ OpenClawRadar📅 Publicado: April 20, 2026🔗 Source
Ad

Arquitetura da Habilidade de Verificação de Veracidade

Um pesquisador com formação em ciência do sono da Universidade de Miami criou uma habilidade Claude Code chamada /veracity-tweaked-555 que decompõe documentos em afirmações atômicas e verifica cada uma via busca na web. A ferramenta usa 16 agentes paralelos em 4 ondas por execução e foi construída em colaboração com o Claude Code (Opus 4.6), onde o Claude redigiu o código enquanto o pesquisador projetou a metodologia.

Resultados da Autoauditoria e Padrões de Erro

Quando o pesquisador executou o verificador de veracidade em sua própria documentação SKILL.md, ele marcou 62 de 100. A habilidade projetada para detectar alucinações tinha fatos alucinados em sua própria documentação, incluindo:

  • Fabricar uma estatística de desempenho ("3x mais preciso" para SAFE, o que o artigo nunca afirma)
  • Inflar uma afirmação de melhoria de um artigo ("+35,5%" era na verdade +5,5% sobre o estado da arte)
  • Fabricar uma expansão de sigla para uma técnica real

Após correções iniciais, a pontuação atingiu 80, depois 84 após uma terceira execução. Uma semana depois, após um loop de convergência mais rigoroso com 6 execuções, 19 agentes e 35 correções adicionais, estabilizou em 96,5/100. No entanto, a auditoria v3 caiu para 74 porque as correções da v1 haviam introduzido novos erros (um custo de token subestimado e uma lista de ferramentas incompleta).

Os erros seguem padrões consistentes: inflação de atribuição (linguagem ligeiramente mais forte do que a fonte justifica), identificadores plausíveis, mas fabricados (PMIDs, IDs arXiv que parecem reais, mas apontam para artigos diferentes) e estatísticas desatualizadas apresentadas como atuais.

Ad

Desafio da Engenharia de Contexto

Uma única execução de auditoria gera aproximadamente 917K tokens entre 16 agentes, excedendo a janela de contexto de 200K do Claude Code. Quando o Claude Code compacta conversas para permanecer dentro dos limites, ele realiza compressão com perdas. Após algumas compactações, o agente perde o rastreamento de como as descobertas se relacionam entre si — qual correção causou qual regressão, qual afirmação contradiz qual outra afirmação. Fatos individuais (nomes, números, assinaturas de função) sobrevivem melhor do que as conexões entre eles.

O diagnóstico do Claude foi que informações relacionais — cadeias causais, referências cruzadas, dependências de múltiplas etapas — são mais difíceis de preservar em um resumo do que fatos isolados.

Solução e Auditorias Adicionais de Habilidades

O pesquisador resolveu isso criando uma habilidade companheira chamada /context-engineer que prevê o estouro antes que aconteça e externaliza o estado relacional para arquivos JSON no disco. O teste de design: se você pode /clear toda a sua conversa e retomar apenas do arquivo de estado, a arquitetura está correta.

A execução de verificações de veracidade em outras habilidades Claude Code revelou:

  • Uma habilidade tinha um título de artigo fabricado em sua seção de atribuição — a citação parecia perfeita (autores, veículo), mas o título era fabricado e o ano estava errado
  • A mesma habilidade atribuiu erroneamente uma estrutura de auditoria ao órgão de normatização errado, aparecendo em vários locais
  • A habilidade /context-engineer tinha inconsistências internas — a prosa dizia "5-10K tokens" enquanto uma tabela dizia "5-15K tokens" para a mesma métrica

Foram necessárias 12 correções no total em todas as habilidades. Todas passaram com 95+ em 3 execuções consecutivas após as correções.

📖 Leia a fonte completa: r/ClaudeAI

Ad

👀 See Also

Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude
Tools

Agentes Alternativos de IA para Codificação Após a Remoção do Plano do Claude

Um usuário do Reddit testou várias alternativas de agentes de IA para programação após a descontinuação do plano de programação do Claude, incluindo Kimi (US$ 20/mês), Minimax (US$ 10/mês), Z.AI GLM (US$ 10/mês), Stepfun (US$ 6-10/mês), Mistral (US$ 15/mês) e Arcee Trinity (baseado em API).

OpenClawRadar
Engram v1.0.0: Memória Persistente para LLMs Locais via Grafo de Conhecimento
Tools

Engram v1.0.0: Memória Persistente para LLMs Locais via Grafo de Conhecimento

Engram é um binário único que fornece memória persistente para LLMs locais através de um sistema de grafo de conhecimento. Inclui um servidor MCP para integração com Claude Code, Cursor e Windsurf, armazena todos os dados em um único arquivo .brain e funciona totalmente offline.

OpenClawRadar
Claude Code LSP: Habilitando o Protocolo de Servidor de Linguagem para Navegação de Código Mais Rápida e Precis
Tools

Claude Code LSP: Habilitando o Protocolo de Servidor de Linguagem para Navegação de Código Mais Rápida e Precis

O Claude Code é enviado sem o LSP ativado por padrão, mas ativá-lo transforma a navegação de código de buscas grep de 30-60 segundos para consultas de 50ms com 100% de precisão. A configuração requer uma flag descoberta através de uma issue do GitHub, em vez da documentação oficial.

OpenClawRadar
MonClaw: Uma Implementação Mínima do OpenClaw Usando o SDK OpenCode
Tools

MonClaw: Uma Implementação Mínima do OpenClaw Usando o SDK OpenCode

Uma alternativa leve ao OpenClaw construída sobre o SDK OpenCode, com suporte para Telegram e WhatsApp.

OpenClaw Radar