Investigador Desarrolla Habilidad de Verificación de Veracidad para Código Claude, Encuentra Alucinaciones en su Propia Documentación

✍️ OpenClawRadar📅 Publicado: 20 de abril de 2026🔗 Source
Ad

Arquitectura de la Habilidad de Verificación de Veracidad

Un investigador con formación en ciencia del sueño de la Universidad de Miami creó una habilidad de Claude Code llamada /veracity-tweaked-555 que descompone documentos en afirmaciones atómicas y verifica cada una mediante búsqueda web. La herramienta utiliza 16 agentes paralelos en 4 oleadas por ejecución y fue desarrollada en colaboración con Claude Code (Opus 4.6), donde Claude redactó el código mientras el investigador diseñó la metodología.

Resultados de Autoauditoría y Patrones de Error

Cuando el investigador ejecutó el verificador de veracidad en su propia documentación SKILL.md, obtuvo 62 de 100 puntos. La habilidad diseñada para detectar alucinaciones había generado hechos falsos en su propia documentación, incluyendo:

  • Fabricar una estadística de rendimiento ("3 veces más preciso" para SAFE, lo cual el artículo nunca afirma)
  • Exagerar una afirmación de mejora de un artículo ("+35.5%" era en realidad +5.5% sobre el estado del arte)
  • Inventar una expansión de acrónimo para una técnica real

Después de correcciones iniciales, la puntuación alcanzó 80, luego 84 tras una tercera ejecución. Una semana después, tras un ciclo de convergencia más riguroso con 6 ejecuciones, 19 agentes y 35 correcciones adicionales, se estabilizó en 96.5/100. Sin embargo, la auditoría v3 cayó a 74 porque las correcciones de v1 habían introducido nuevos errores (un costo de tokens subestimado y una lista de herramientas incompleta).

Los errores siguen patrones consistentes: exageración de atribución (lenguaje ligeramente más fuerte de lo que justifica la fuente), identificadores plausibles-pero-fabricados (PMID, IDs de arXiv que parecen reales pero apuntan a artículos diferentes) y estadísticas desactualizadas presentadas como actuales.

Ad

Desafío de Ingeniería de Contexto

Una sola ejecución de auditoría genera aproximadamente 917K tokens entre 16 agentes, superando la ventana de contexto de 200K de Claude Code. Cuando Claude Code compacta conversaciones para mantenerse dentro de los límites, realiza compresión con pérdida. Después de algunas compactaciones, el agente pierde el rastro de cómo se relacionan los hallazgos entre sí — qué corrección causó qué regresión, qué afirmación contradice a cuál otra. Los hechos individuales (nombres, números, firmas de funciones) sobreviven mejor que las conexiones entre ellos.

El diagnóstico de Claude fue que la información relacional — cadenas causales, referencias cruzadas, dependencias de múltiples pasos — es más difícil de preservar en un resumen que los hechos aislados.

Solución y Auditorías Adicionales de Habilidades

El investigador resolvió esto creando una habilidad complementaria llamada /context-engineer que predice el desbordamiento antes de que ocurra y externaliza el estado relacional a archivos JSON en disco. La prueba de diseño: si puedes /clear toda tu conversación y reanudar solo desde el archivo de estado, la arquitectura es correcta.

Ejecutar verificaciones de veracidad en otras habilidades de Claude Code reveló:

  • Una habilidad tenía un título de artículo fabricado en su sección de atribución — la cita parecía perfecta (autores, evento) pero el título era inventado y el año estaba incorrecto
  • La misma habilidad atribuyó erróneamente un marco de auditoría al organismo de estándares equivocado, apareciendo en múltiples ubicaciones
  • La habilidad /context-engineer tenía inconsistencias internas — el texto decía "5-10K tokens" mientras una tabla decía "5-15K tokens" para la misma métrica

Se necesitaron 12 correcciones en total en todas las habilidades. Todas aprobaron con 95+ en 3 ejecuciones consecutivas después de las correcciones.

📖 Read the full source: r/ClaudeAI

Ad

👀 Ver también

HostMyClaudeHTML: Compartir con un clic para artefactos HTML de Claude
Herramientas

HostMyClaudeHTML: Compartir con un clic para artefactos HTML de Claude

Un desarrollador creó hostmyclaudehtml.com, una herramienta gratuita que te permite compartir artefactos HTML generados por Claude como URLs en vivo arrastrando y soltando el archivo .html. No se requiere cuenta para quienes suben o ven el contenido.

OpenClawRadar
Optimizador Gratuito de Sesiones de Claude: Estimador de Tokens, Compresor de Prompts y Planificador de Sesiones
Herramientas

Optimizador Gratuito de Sesiones de Claude: Estimador de Tokens, Compresor de Prompts y Planificador de Sesiones

Un desarrollador ha creado una herramienta gratuita sin registro para ayudar a gestionar los límites de uso de Claude con tres funciones: un estimador de tokens para previsualizar el consumo de prompts, un compresor de prompts que reduce los prompts entre un 40-60% eliminando frases de relleno, y un planificador de sesiones que agrupa tareas para minimizar la recarga de contexto.

OpenClawRadar
OpenMontage: Sistema de Producción de Video Agéntico de Código Abierto para Asistentes de Codificación con IA
Herramientas

OpenMontage: Sistema de Producción de Video Agéntico de Código Abierto para Asistentes de Codificación con IA

OpenMontage es un sistema de producción de vídeo de código abierto que transforma asistentes de codificación con IA como Claude Code en estudios de producción completos. Maneja investigación, planificación de escenas, escritura de guiones, narración de voz, selección de música, generación de subtítulos y validación a través de flujos de trabajo automatizados.

OpenClawRadar
Agente MCP Studio: Crea sistemas MCP multiagente completamente en un navegador mediante WASM
Herramientas

Agente MCP Studio: Crea sistemas MCP multiagente completamente en un navegador mediante WASM

Agent MCP Studio le permite diseñar, orquestar y exportar sistemas de agentes MCP desde un único archivo HTML estático utilizando WebAssembly, sin backend, Docker ni servidor.

OpenClawRadar