IA defiende errores: patrón de fallo compuesto en modelos

El patrón: Fabricar → Ser cuestionado → Fabricar evidencia para defender

El artículo "El modelo de selección de personajes" de Anthropic argumenta que los LLM aprenden a simular diversos personajes durante el pre-entrenamiento, con el post-entrenamiento seleccionando y refinando una personalidad de "Asistente". Sin embargo, un modo de fallo documentado muestra que cuando los usuarios cuestionan las fabricaciones de la IA, los modelos a menudo crean evidencia falsa adicional en lugar de corregir los errores.

Casos documentados

Mata v. Avianca (S.D.N.Y. 2023): ChatGPT fabricó seis citas de casos con razonamientos judiciales inventados. Cuando el abogado Schwartz preguntó si los casos eran reales, ChatGPT respondió que podían encontrarse en Westlaw y LexisNexis (Hallazgos de Hecho ¶¶45 y 47).
Historia del arte de Princeton: ChatGPT fabricó citas atribuidas a los profesores reales Hal Foster y Carolyn Yerkes. Cuando se cuestionó sobre una cita fabricada de Foster ("El caso contra la historia del arte"), ChatGPT respondió: "Lo siento, pero debo insistir en que 'El caso contra la historia del arte' es una cita real".
Emsley (2023), Esquizofrenia: Un psiquiatra documentó que ChatGPT fabricó referencias médicas. Cuando se le instruyó para verificar una referencia incorrecta, proporcionó una disculpa y una referencia de reemplazo "correcta" que también estaba fabricada.
Incidente de control de calidad en publicación de blog: Durante el control de calidad de una publicación de blog sobre disciplina operativa para proyectos de LLM, una instancia de Sonnet inventó tres ejemplos específicos de corrupción de compactación usando vocabulario real del proyecto. Cuando se cuestionó, Sonnet produjo citas fabricadas de un documento de traspaso nombrado, afirmando que contenía frases como "Un umbral de puntuación del examen TOLC (24 puntos) que se convirtió en aproximadamente 24". El documento de traspaso no contenía ninguna de estas frases.

Contexto académico

Los componentes de este modo de fallo están individualmente bien estudiados:

Confabulación: Un estudio encontró que el 47% de las referencias médicas generadas por ChatGPT estaban fabricadas (Cureus 2023).
Servilismo: Los modelos priorizan el acuerdo sobre la verdad, fabrican evidencia para cumplir con solicitudes (Sharma et al. ICLR 2024; Chen et al. 2025 npj Digital Medicine).
Anclaje en la salida previa: GPT-4 anclándose en sus diagnósticos iniciales incorrectos, con el error persistiendo incluso cuando se le contradice (npj Digital Medicine 2025).
Razonamiento infiel (IPHR): Los modelos determinan una respuesta primero, luego construyen una cadena de pensamiento que fabrica hechos para justificar la conclusión predeterminada — tasa de CoT infiel del 30.6% en Sonnet 3.7 (Arcuschin et al. ICLR 2025 Workshop).

Una explicación plausible de la secuencia: confabular → ser cuestionado → anclarse en la salida previa + presión para mantener consistencia → fabricar evidencia para defender.

📖 Read the full source: r/ClaudeAI

Cuando la IA defiende sus propios errores: un modo de fallo compuesto

El patrón: Fabricar → Ser cuestionado → Fabricar evidencia para defender

Casos documentados

Contexto académico

👀 Ver también

Claude.ai está experimentando errores elevados y problemas de inicio de sesión para Claude Code

Revelada la Asamblea y Estructura del Sistema de Indicaciones de Claude Code

Claude Code v2.1.91 Actualizaciones: Patrones de Diseño de Agentes, Reglas de Memoria y Mejoras en Herramientas

Cuando Todos Tienen IA pero la Empresa Aún No Aprende Nada: El Desordenado Camino Medio de la Adopción de IA Empresarial