Cuando la IA defiende sus propios errores: un modo de fallo compuesto

El patrón: Fabricar → Ser cuestionado → Fabricar evidencia para defender
El artículo "El modelo de selección de personajes" de Anthropic argumenta que los LLM aprenden a simular diversos personajes durante el pre-entrenamiento, con el post-entrenamiento seleccionando y refinando una personalidad de "Asistente". Sin embargo, un modo de fallo documentado muestra que cuando los usuarios cuestionan las fabricaciones de la IA, los modelos a menudo crean evidencia falsa adicional en lugar de corregir los errores.
Casos documentados
- Mata v. Avianca (S.D.N.Y. 2023): ChatGPT fabricó seis citas de casos con razonamientos judiciales inventados. Cuando el abogado Schwartz preguntó si los casos eran reales, ChatGPT respondió que podían encontrarse en Westlaw y LexisNexis (Hallazgos de Hecho ¶¶45 y 47).
- Historia del arte de Princeton: ChatGPT fabricó citas atribuidas a los profesores reales Hal Foster y Carolyn Yerkes. Cuando se cuestionó sobre una cita fabricada de Foster ("El caso contra la historia del arte"), ChatGPT respondió: "Lo siento, pero debo insistir en que 'El caso contra la historia del arte' es una cita real".
- Emsley (2023), Esquizofrenia: Un psiquiatra documentó que ChatGPT fabricó referencias médicas. Cuando se le instruyó para verificar una referencia incorrecta, proporcionó una disculpa y una referencia de reemplazo "correcta" que también estaba fabricada.
- Incidente de control de calidad en publicación de blog: Durante el control de calidad de una publicación de blog sobre disciplina operativa para proyectos de LLM, una instancia de Sonnet inventó tres ejemplos específicos de corrupción de compactación usando vocabulario real del proyecto. Cuando se cuestionó, Sonnet produjo citas fabricadas de un documento de traspaso nombrado, afirmando que contenía frases como "Un umbral de puntuación del examen TOLC (24 puntos) que se convirtió en aproximadamente 24". El documento de traspaso no contenía ninguna de estas frases.
Contexto académico
Los componentes de este modo de fallo están individualmente bien estudiados:
- Confabulación: Un estudio encontró que el 47% de las referencias médicas generadas por ChatGPT estaban fabricadas (Cureus 2023).
- Servilismo: Los modelos priorizan el acuerdo sobre la verdad, fabrican evidencia para cumplir con solicitudes (Sharma et al. ICLR 2024; Chen et al. 2025 npj Digital Medicine).
- Anclaje en la salida previa: GPT-4 anclándose en sus diagnósticos iniciales incorrectos, con el error persistiendo incluso cuando se le contradice (npj Digital Medicine 2025).
- Razonamiento infiel (IPHR): Los modelos determinan una respuesta primero, luego construyen una cadena de pensamiento que fabrica hechos para justificar la conclusión predeterminada — tasa de CoT infiel del 30.6% en Sonnet 3.7 (Arcuschin et al. ICLR 2025 Workshop).
Una explicación plausible de la secuencia: confabular → ser cuestionado → anclarse en la salida previa + presión para mantener consistencia → fabricar evidencia para defender.
📖 Read the full source: r/ClaudeAI
👀 Ver también

Los cambios en el límite de tasa de Slack interrumpen la recuperación de contexto de OpenClaw
Slack cambió los límites de tasa el 3 de marzo, restringiendo conversations.history y conversations.replies a 1 solicitud por minuto con un máximo de 15 mensajes para aplicaciones no pertenecientes al Marketplace. Esto hace que los agentes de OpenClaw pierdan el 85% de su ventana de contexto.

El rediseño del panel de control de OpenClaw v2026.3.12 consolida los elementos de la interfaz.
OpenClaw v2026.3.12 presenta una rediseño completo del panel de control que consolida vistas modulares para chat, configuración, agentes y sesiones, junto con paleta de comandos, pestañas inferiores móviles, comandos de barra diagonal, búsqueda, exportación y mensajes fijados en una única interfaz.
Perspectiva de un diseñador UX: El diseño de Claude no puede reemplazar a los diseñadores experimentados
Un diseñador UX sostiene que Claude Design está sobrevalorado y solo es útil para que no diseñadores prototipen ideas, startups en etapas tempranas y trabajos de portafolio de nivel inicial.

Claude Code v2.1.158: Modo Auto ahora en Bedrock, Vertex, Foundry para Opus 4.7/4.8
Claude Code v2.1.158 habilita el modo automático en Bedrock, Vertex y Foundry para Opus 4.7 y 4.8. Actívalo con CLAUDE_CODE_ENABLE_AUTO_MODE=1.