Detecte alucinações de IA com /probe antes de codificar

O que o /probe faz

A técnica /probe força planos gerados por IA a produzir cada fato afirmado como uma AFIRMAÇÃO numerada com um valor ESPERADO. Em seguida, executa um comando para sondar o sistema real e captura a diferença entre os resultados esperados e reais.

Exemplo real da fonte

Um desenvolvedor estava tentando analisar os arquivos de sessão JSONL do Claude armazenados em ~/.claude/projects/.... O Claude descreveu o formato com confiança, mas executar /probe revelou quatro alucinações:

Afirmação 1: A IA disse que havia 2 tipos de nível superior (usuário, assistente). Realidade: 7 tipos incluindo queue-operation, file-history-snapshot, attachment, system, permission-mode e summary.
Afirmação 2: A IA disse que o conteúdo do assistente = texto + tool_use. Realidade: Faltaram blocos de pensamento, que representam cerca de um terço da saída do assistente no modo de pensamento estendido.
Afirmação 3: A IA disse que o conteúdo do usuário é sempre um array. Realidade: Polimórfico: string OU array.
Afirmação 4: A IA disse que a nomenclatura de pastas substitui / por -. Realidade: Na verdade, adiciona um traço antes, depois substitui.

Sem o /probe, o filtro jq teria gerado erro no conteúdo do usuário em formato string, descartado blocos de pensamento como lixo e perdido 5 dos 7 tipos de mensagem completamente.

Como a sonda funciona

A IA escreve afirmações como "ESPERADO: 2 tipos" antes de executar comandos como jq -r '.type' file.jsonl | sort -u. Uma saída da sonda ficou assim:

AFIRMAÇÃO 1: JSONL tem 2 tipos de nível superior (usuário, assistente)
ESPERADO: 2
COMANDO: jq -r '.type' *.jsonl | sort -u | wc -l
REAL: 7
DIFERENÇA: +5 tipos desconhecidos (queue-operation, file-history-snapshot, attachment, system, permission-mode, summary)

Principais insights da fonte

As afirmações que valem a pena sondar são frequentemente aquelas sobre as quais a IA tem mais confiança. Quando a IA hesita, você já sabe que precisa verificar. Quando ela afirma categoricamente X, você não sabe. Afirmações de alta confiança são onde as alucinações se escondem.

Outro benefício é que uma sonda se torna N testes permanentes. A descoberta dos 7 tipos se torna um teste de esquema que falha no CI se um novo tipo aparecer. A descoberta de string-ou-array se torna um teste de propriedade que testa ambas as formas. Quando o formato upstream muda, o teste falha, você re-sonda e o oráculo se atualiza.

Limitações e melhorias

A sonda só captura afirmações que a IA pensa em fazer. Desconhecidos desconhecidos permanecem invisíveis. Coisas que ajudam:

Execute jq 'keys' primeiro para enumerar a realidade antes de gerar afirmações
O padrão CRISPY de Dex Horthy empurra a IA a revelar sua própria lista de lacunas
O Spec Kit do GitHub usa marcadores [PRECISA DE ESCLARECIMENTO] em especificações para forçar a IA a marcar pontos cegos
A varredura humana da lista de afirmações também é recomendada

Contraste com TDD tradicional

O TDD tradicional escreve testes com base no que você PENSA que deve acontecer. O TDD orientado por sonda escreve testes com base no que você explorou ou VERIFICOU que acontece. Mocks testam seu modelo do sistema. A sonda testa o próprio sistema.

Arquivos fonte

O desenvolvedor compartilhou o arquivo de habilidade /probe completo em um gist com dois arquivos:

README.md: Texto mais longo com o ângulo do REPL-como-oráculo e contraste com TDD
probe-skill.md: O protocolo de 7 etapas carregado como uma habilidade Claude Code

O padrão é simplesmente "tabela de afirmações + sonda do sistema real + capturar a diferença" e funciona com qualquer REPL ou ferramenta CLI que possa consultar o sistema contra o qual você está prestes a programar.

📖 Leia a fonte completa: r/ClaudeAI