Habilidad Claude Code /veracity-tweaked-555: Verifica Veracidad

Arquitectura de la Habilidad de Verificación de Veracidad

Un investigador con formación en ciencia del sueño de la Universidad de Miami creó una habilidad de Claude Code llamada /veracity-tweaked-555 que descompone documentos en afirmaciones atómicas y verifica cada una mediante búsqueda web. La herramienta utiliza 16 agentes paralelos en 4 oleadas por ejecución y fue desarrollada en colaboración con Claude Code (Opus 4.6), donde Claude redactó el código mientras el investigador diseñó la metodología.

Resultados de Autoauditoría y Patrones de Error

Cuando el investigador ejecutó el verificador de veracidad en su propia documentación SKILL.md, obtuvo 62 de 100 puntos. La habilidad diseñada para detectar alucinaciones había generado hechos falsos en su propia documentación, incluyendo:

Fabricar una estadística de rendimiento ("3 veces más preciso" para SAFE, lo cual el artículo nunca afirma)
Exagerar una afirmación de mejora de un artículo ("+35.5%" era en realidad +5.5% sobre el estado del arte)
Inventar una expansión de acrónimo para una técnica real

Después de correcciones iniciales, la puntuación alcanzó 80, luego 84 tras una tercera ejecución. Una semana después, tras un ciclo de convergencia más riguroso con 6 ejecuciones, 19 agentes y 35 correcciones adicionales, se estabilizó en 96.5/100. Sin embargo, la auditoría v3 cayó a 74 porque las correcciones de v1 habían introducido nuevos errores (un costo de tokens subestimado y una lista de herramientas incompleta).

Los errores siguen patrones consistentes: exageración de atribución (lenguaje ligeramente más fuerte de lo que justifica la fuente), identificadores plausibles-pero-fabricados (PMID, IDs de arXiv que parecen reales pero apuntan a artículos diferentes) y estadísticas desactualizadas presentadas como actuales.

Desafío de Ingeniería de Contexto

Una sola ejecución de auditoría genera aproximadamente 917K tokens entre 16 agentes, superando la ventana de contexto de 200K de Claude Code. Cuando Claude Code compacta conversaciones para mantenerse dentro de los límites, realiza compresión con pérdida. Después de algunas compactaciones, el agente pierde el rastro de cómo se relacionan los hallazgos entre sí — qué corrección causó qué regresión, qué afirmación contradice a cuál otra. Los hechos individuales (nombres, números, firmas de funciones) sobreviven mejor que las conexiones entre ellos.

El diagnóstico de Claude fue que la información relacional — cadenas causales, referencias cruzadas, dependencias de múltiples pasos — es más difícil de preservar en un resumen que los hechos aislados.

Solución y Auditorías Adicionales de Habilidades

El investigador resolvió esto creando una habilidad complementaria llamada /context-engineer que predice el desbordamiento antes de que ocurra y externaliza el estado relacional a archivos JSON en disco. La prueba de diseño: si puedes /clear toda tu conversación y reanudar solo desde el archivo de estado, la arquitectura es correcta.

Ejecutar verificaciones de veracidad en otras habilidades de Claude Code reveló:

Una habilidad tenía un título de artículo fabricado en su sección de atribución — la cita parecía perfecta (autores, evento) pero el título era inventado y el año estaba incorrecto
La misma habilidad atribuyó erróneamente un marco de auditoría al organismo de estándares equivocado, apareciendo en múltiples ubicaciones
La habilidad /context-engineer tenía inconsistencias internas — el texto decía "5-10K tokens" mientras una tabla decía "5-15K tokens" para la misma métrica

Se necesitaron 12 correcciones en total en todas las habilidades. Todas aprobaron con 95+ en 3 ejecuciones consecutivas después de las correcciones.

📖 Read the full source: r/ClaudeAI

Investigador Desarrolla Habilidad de Verificación de Veracidad para Código Claude, Encuentra Alucinaciones en su Propia Documentación

Arquitectura de la Habilidad de Verificación de Veracidad

Resultados de Autoauditoría y Patrones de Error

Desafío de Ingeniería de Contexto

Solución y Auditorías Adicionales de Habilidades

👀 Ver también

Corbell: CLI de Código Abierto para Análisis de Arquitectura y Documentos de Diseño entre Repositorios

Corrección de la inflación de contexto en la memoria automática de Claude Code con un esquema de nombres y script de auditoría

Configurando OpenClaw como un asistente de IA siempre activo

El espejismo del trabajo terminado en Claude Code: Por qué revisar el camino del agente importa más que el diff