Usando /probe para detectar alucinaciones de IA antes de escribir código.

✍️ OpenClawRadar📅 Publicado: 15 de abril de 2026🔗 Source
Usando /probe para detectar alucinaciones de IA antes de escribir código.
Ad

Qué hace /probe

La técnica /probe obliga a los planes generados por IA a emitir cada hecho afirmado como una AFIRMACIÓN numerada con un valor ESPERADO. Luego ejecuta un comando para sondear contra el sistema real y captura la diferencia entre los resultados esperados y reales.

Ejemplo real de la fuente

Un desarrollador intentaba analizar los archivos de sesión JSONL de Claude almacenados en ~/.claude/projects/.... Claude describió el formato con confianza, pero ejecutar /probe reveló cuatro alucinaciones:

  • Afirmación 1: La IA dijo que había 2 tipos de nivel superior (usuario, asistente). Realidad: 7 tipos incluyendo queue-operation, file-history-snapshot, attachment, system, permission-mode y summary.
  • Afirmación 2: La IA dijo que el contenido del asistente = texto + tool_use. Realidad: Omitió bloques de pensamiento, que son aproximadamente un tercio de la salida del asistente en modo de pensamiento extendido.
  • Afirmación 3: La IA dijo que el contenido del usuario siempre es un array. Realidad: Polimórfico: string O array.
  • Afirmación 4: La IA dijo que la nomenclatura de carpetas reemplaza / con -. Realidad: En realidad antepone un guion, luego reemplaza.

Sin /probe, el filtro jq habría fallado en el contenido de usuario en forma de cadena, descartado bloques de pensamiento como basura y omitido 5 de 7 tipos de mensajes por completo.

Cómo funciona el sondeo

La IA escribe afirmaciones como "ESPERADO: 2 tipos" antes de ejecutar comandos como jq -r '.type' file.jsonl | sort -u. Una salida de sondeo se veía así:

AFIRMACIÓN 1: JSONL tiene 2 tipos de nivel superior (usuario, asistente)
ESPERADO: 2
COMANDO: jq -r '.type' *.jsonl | sort -u | wc -l
REAL: 7
DIFERENCIA: +5 tipos desconocidos (queue-operation, file-history-snapshot, attachment, system, permission-mode, summary)
Ad

Ideas clave de la fuente

Las afirmaciones que vale la pena sondear suelen ser aquellas sobre las que la IA tiene más confianza. Cuando la IA duda, ya sabes que debes verificar. Cuando afirma rotundamente X, no lo sabes. Las afirmaciones de alta confianza es donde se esconden las alucinaciones.

Otro beneficio es que un sondeo se convierte en N pruebas permanentes. El hallazgo de 7 tipos se convierte en una prueba de esquema que falla en CI si aparece un nuevo tipo. El hallazgo de cadena-o-array se convierte en una prueba de propiedad que prueba ambas formas. Cuando el formato fuente cambia, la prueba falla, vuelves a sondear y el oráculo se actualiza.

Limitaciones y mejoras

El sondeo solo detecta afirmaciones que la IA piensa hacer. Lo desconocido desconocido permanece invisible. Cosas que ayudan:

  • Ejecutar jq 'keys' primero para enumerar la realidad antes de generar afirmaciones
  • El patrón CRISPY de Dex Horthy empuja a la IA a exponer su propia lista de brechas
  • El Spec Kit de GitHub usa marcadores [NECESITA ACLARACIÓN] en especificaciones para obligar a la IA a marcar puntos ciegos
  • También se recomienda un escaneo humano de la lista de afirmaciones

Contraste con TDD tradicional

El TDD tradicional escribe pruebas basadas en lo que CREES que debería pasar. El TDD impulsado por sondeo escribe pruebas basadas en lo que has investigado o VERIFICADO que pasa. Los mocks prueban tu modelo del sistema. El sondeo prueba el sistema mismo.

Archivos fuente

El desarrollador compartió el archivo de habilidad /probe completo en un gist con dos archivos:

  • README.md: Escrito más largo con el ángulo de REPL-como-oráculo y contraste TDD
  • probe-skill.md: El protocolo de 7 pasos cargado como una habilidad de Claude Code

El patrón es simplemente "tabla de afirmaciones + sondeo del sistema real + capturar la diferencia" y funciona con cualquier REPL o herramienta CLI que pueda consultar el sistema contra el que estás a punto de programar.

📖 Leer la fuente completa: r/ClaudeAI

Ad

👀 Ver también

El Agente OpenClaw Mantiene la Memoria al Cambiar de la Suscripción de Claude a la API
Herramientas

El Agente OpenClaw Mantiene la Memoria al Cambiar de la Suscripción de Claude a la API

Un desarrollador informa haber migrado con éxito su configuración de OpenClaw de una suscripción a Claude a una clave API sin perder la memoria del agente, utilizando la habilidad mengram-memory que guarda en una capa externa. El agente conservó ~100+ hechos aprendidos, procedimientos evolucionados y recuerdos episódicos.

OpenClawRadar
La Extensión Crispy para VS Code Agrega Memoria de Agente y Funciones Multiagente para Claude y Codex
Herramientas

La Extensión Crispy para VS Code Agrega Memoria de Agente y Funciones Multiagente para Claude y Codex

Crispy es una extensión de código abierto para VS Code que envuelve las CLI de Claude Code y Codex con una interfaz gráfica, añadiendo memoria local del agente con búsqueda semántica, sesiones multiagente, bifurcación de conversaciones y vistas de herramientas dedicadas. Se ejecuta en Linux, macOS y Windows bajo licencia MIT.

OpenClawRadar
Desarrollador Construye Compilador de Scheme a WASM Usando IA en 4 Días
Herramientas

Desarrollador Construye Compilador de Scheme a WASM Usando IA en 4 Días

Un desarrollador creó Puppy Scheme, un compilador de Scheme que se dirige a WebAssembly, en aproximadamente 4 días con asistencia de IA. El compilador admite el 73% de R5RS y R7RS, utiliza WASM GC y logró mejoras en el tiempo de compilación de 3½ minutos a 11 segundos de la noche a la mañana.

OpenClawRadar
Configuración de Control por Voz Local para Agentes de IA en Apple Silicon
Herramientas

Configuración de Control por Voz Local para Agentes de IA en Apple Silicon

Configura el control de voz local para agentes de IA utilizando Parakeet STT y Kokoro TTS en Apple Silicon para interacciones rápidas e independientes de la nube.

OpenClawRadar