/probe: detecta alucinaciones de IA antes de codificar

Qué hace /probe

La técnica /probe obliga a los planes generados por IA a emitir cada hecho afirmado como una AFIRMACIÓN numerada con un valor ESPERADO. Luego ejecuta un comando para sondear contra el sistema real y captura la diferencia entre los resultados esperados y reales.

Ejemplo real de la fuente

Un desarrollador intentaba analizar los archivos de sesión JSONL de Claude almacenados en ~/.claude/projects/.... Claude describió el formato con confianza, pero ejecutar /probe reveló cuatro alucinaciones:

Afirmación 1: La IA dijo que había 2 tipos de nivel superior (usuario, asistente). Realidad: 7 tipos incluyendo queue-operation, file-history-snapshot, attachment, system, permission-mode y summary.
Afirmación 2: La IA dijo que el contenido del asistente = texto + tool_use. Realidad: Omitió bloques de pensamiento, que son aproximadamente un tercio de la salida del asistente en modo de pensamiento extendido.
Afirmación 3: La IA dijo que el contenido del usuario siempre es un array. Realidad: Polimórfico: string O array.
Afirmación 4: La IA dijo que la nomenclatura de carpetas reemplaza / con -. Realidad: En realidad antepone un guion, luego reemplaza.

Sin /probe, el filtro jq habría fallado en el contenido de usuario en forma de cadena, descartado bloques de pensamiento como basura y omitido 5 de 7 tipos de mensajes por completo.

Cómo funciona el sondeo

La IA escribe afirmaciones como "ESPERADO: 2 tipos" antes de ejecutar comandos como jq -r '.type' file.jsonl | sort -u. Una salida de sondeo se veía así:

AFIRMACIÓN 1: JSONL tiene 2 tipos de nivel superior (usuario, asistente)
ESPERADO: 2
COMANDO: jq -r '.type' *.jsonl | sort -u | wc -l
REAL: 7
DIFERENCIA: +5 tipos desconocidos (queue-operation, file-history-snapshot, attachment, system, permission-mode, summary)

Ideas clave de la fuente

Las afirmaciones que vale la pena sondear suelen ser aquellas sobre las que la IA tiene más confianza. Cuando la IA duda, ya sabes que debes verificar. Cuando afirma rotundamente X, no lo sabes. Las afirmaciones de alta confianza es donde se esconden las alucinaciones.

Otro beneficio es que un sondeo se convierte en N pruebas permanentes. El hallazgo de 7 tipos se convierte en una prueba de esquema que falla en CI si aparece un nuevo tipo. El hallazgo de cadena-o-array se convierte en una prueba de propiedad que prueba ambas formas. Cuando el formato fuente cambia, la prueba falla, vuelves a sondear y el oráculo se actualiza.

Limitaciones y mejoras

El sondeo solo detecta afirmaciones que la IA piensa hacer. Lo desconocido desconocido permanece invisible. Cosas que ayudan:

Ejecutar jq 'keys' primero para enumerar la realidad antes de generar afirmaciones
El patrón CRISPY de Dex Horthy empuja a la IA a exponer su propia lista de brechas
El Spec Kit de GitHub usa marcadores [NECESITA ACLARACIÓN] en especificaciones para obligar a la IA a marcar puntos ciegos
También se recomienda un escaneo humano de la lista de afirmaciones

Contraste con TDD tradicional

El TDD tradicional escribe pruebas basadas en lo que CREES que debería pasar. El TDD impulsado por sondeo escribe pruebas basadas en lo que has investigado o VERIFICADO que pasa. Los mocks prueban tu modelo del sistema. El sondeo prueba el sistema mismo.

Archivos fuente

El desarrollador compartió el archivo de habilidad /probe completo en un gist con dos archivos:

README.md: Escrito más largo con el ángulo de REPL-como-oráculo y contraste TDD
probe-skill.md: El protocolo de 7 pasos cargado como una habilidad de Claude Code

El patrón es simplemente "tabla de afirmaciones + sondeo del sistema real + capturar la diferencia" y funciona con cualquier REPL o herramienta CLI que pueda consultar el sistema contra el que estás a punto de programar.

📖 Leer la fuente completa: r/ClaudeAI