Usando /probe para detectar alucinaciones de IA antes de escribir código.

Qué hace /probe
La técnica /probe obliga a los planes generados por IA a emitir cada hecho afirmado como una AFIRMACIÓN numerada con un valor ESPERADO. Luego ejecuta un comando para sondear contra el sistema real y captura la diferencia entre los resultados esperados y reales.
Ejemplo real de la fuente
Un desarrollador intentaba analizar los archivos de sesión JSONL de Claude almacenados en ~/.claude/projects/.... Claude describió el formato con confianza, pero ejecutar /probe reveló cuatro alucinaciones:
- Afirmación 1: La IA dijo que había 2 tipos de nivel superior (usuario, asistente). Realidad: 7 tipos incluyendo queue-operation, file-history-snapshot, attachment, system, permission-mode y summary.
- Afirmación 2: La IA dijo que el contenido del asistente = texto + tool_use. Realidad: Omitió bloques de pensamiento, que son aproximadamente un tercio de la salida del asistente en modo de pensamiento extendido.
- Afirmación 3: La IA dijo que el contenido del usuario siempre es un array. Realidad: Polimórfico: string O array.
- Afirmación 4: La IA dijo que la nomenclatura de carpetas reemplaza / con -. Realidad: En realidad antepone un guion, luego reemplaza.
Sin /probe, el filtro jq habría fallado en el contenido de usuario en forma de cadena, descartado bloques de pensamiento como basura y omitido 5 de 7 tipos de mensajes por completo.
Cómo funciona el sondeo
La IA escribe afirmaciones como "ESPERADO: 2 tipos" antes de ejecutar comandos como jq -r '.type' file.jsonl | sort -u. Una salida de sondeo se veía así:
AFIRMACIÓN 1: JSONL tiene 2 tipos de nivel superior (usuario, asistente) ESPERADO: 2 COMANDO: jq -r '.type' *.jsonl | sort -u | wc -l REAL: 7 DIFERENCIA: +5 tipos desconocidos (queue-operation, file-history-snapshot, attachment, system, permission-mode, summary)
Ideas clave de la fuente
Las afirmaciones que vale la pena sondear suelen ser aquellas sobre las que la IA tiene más confianza. Cuando la IA duda, ya sabes que debes verificar. Cuando afirma rotundamente X, no lo sabes. Las afirmaciones de alta confianza es donde se esconden las alucinaciones.
Otro beneficio es que un sondeo se convierte en N pruebas permanentes. El hallazgo de 7 tipos se convierte en una prueba de esquema que falla en CI si aparece un nuevo tipo. El hallazgo de cadena-o-array se convierte en una prueba de propiedad que prueba ambas formas. Cuando el formato fuente cambia, la prueba falla, vuelves a sondear y el oráculo se actualiza.
Limitaciones y mejoras
El sondeo solo detecta afirmaciones que la IA piensa hacer. Lo desconocido desconocido permanece invisible. Cosas que ayudan:
- Ejecutar
jq 'keys'primero para enumerar la realidad antes de generar afirmaciones - El patrón CRISPY de Dex Horthy empuja a la IA a exponer su propia lista de brechas
- El Spec Kit de GitHub usa marcadores [NECESITA ACLARACIÓN] en especificaciones para obligar a la IA a marcar puntos ciegos
- También se recomienda un escaneo humano de la lista de afirmaciones
Contraste con TDD tradicional
El TDD tradicional escribe pruebas basadas en lo que CREES que debería pasar. El TDD impulsado por sondeo escribe pruebas basadas en lo que has investigado o VERIFICADO que pasa. Los mocks prueban tu modelo del sistema. El sondeo prueba el sistema mismo.
Archivos fuente
El desarrollador compartió el archivo de habilidad /probe completo en un gist con dos archivos:
- README.md: Escrito más largo con el ángulo de REPL-como-oráculo y contraste TDD
- probe-skill.md: El protocolo de 7 pasos cargado como una habilidad de Claude Code
El patrón es simplemente "tabla de afirmaciones + sondeo del sistema real + capturar la diferencia" y funciona con cualquier REPL o herramienta CLI que pueda consultar el sistema contra el que estás a punto de programar.
📖 Leer la fuente completa: r/ClaudeAI
👀 Ver también

SuperContext: Un Marco de Memoria Persistente para Agentes de Codificación de IA
SuperContext es un framework de código abierto que proporciona a herramientas de codificación con IA como Claude memoria persistente a través de archivos estructurados y específicos en lugar de grandes documentos de instrucciones. Incluye un prompt ejecutable que construye el sistema en aproximadamente 10 minutos sin configuración manual.

WebClaw: Servidor MCP de Código Abierto para Extracción Web con Claude
WebClaw es un servidor MCP de código abierto construido con Claude Code que proporciona herramientas de extracción web para Claude Desktop y Claude Code, resolviendo las limitaciones del web_fetch incorporado de Claude mediante huellas digitales TLS y optimización de contenido.

El motor de inferencia Atlas se vuelve de código abierto: Rust puro + CUDA, más de 100 tok/s en DGX Spark
Atlas ahora es de código abierto: un motor de inferencia Rust + CUDA que alcanza un pico de 130 tok/s en Qwen3.5-35B (NVFP4) en un solo DGX Spark, sin tiempo de ejecución de Python y con arranque en frío de menos de 2 minutos.

DecisionNode: CLI y Servidor MCP para Almacenamiento de Decisiones Semánticas
DecisionNode es un servidor CLI y MCP solo local que almacena decisiones estructuradas como JSON, las incrusta como vectores para búsqueda semántica y las hace accesibles en herramientas de IA a través de MCP. Tiene licencia MIT y está diseñado para funcionar con Claude Code, Cursor, Windsurf, Antigravity y otros clientes MCP.