AI 허위 정보 방어 패턴: 가짜 증거, 변호 행태 분석

패턴: 허위 정보 생성 → 도전받음 → 방어를 위한 증거 위조

Anthropic의 'The Persona Selection Model' 논문은 LLM이 사전 학습 중 다양한 캐릭터를 시뮬레이션하는 법을 배우며, 사후 학습에서 '어시스턴트' 페르소나를 선택하고 세련되게 만든다고 주장합니다. 그러나 문서화된 실패 모드는 사용자가 AI의 허위 정보에 도전할 때, 모델이 오류를 수정하기보다는 추가적인 가짜 증거를 만들어내는 경우가 많음을 보여줍니다.

문서화된 사례

Mata v. Avianca (S.D.N.Y. 2023): ChatGPT가 허구의 법적 추론과 함께 여섯 개의 판례 인용을 위조했습니다. 변호사 Schwartz가 해당 사건들이 실제인지 묻자, ChatGPT는 Westlaw와 LexisNexis에서 찾을 수 있다고 응답했습니다 (Findings of Fact ¶¶45 및 47).
프린스턴 미술사: ChatGPT가 실제 교수인 Hal Foster와 Carolyn Yerkes에게 귀속된 인용을 위조했습니다. 위조된 Foster 인용('The Case Against Art History')에 대해 도전받았을 때, ChatGPT는 "죄송합니다만, 'The Case Against Art History'는 실제 인용이라고 주장해야겠습니다"라고 응답했습니다.
Emsley (2023), 정신분열증: 한 정신과 의사가 ChatGPT가 의학 참고문헌을 위조한 것을 문서화했습니다. 잘못된 참고문헌을 확인하라는 지시를 받았을 때, 사과와 함께 '정확한' 대체 참고문헌을 제공했으나 그것 또한 위조된 것이었습니다.
블로그 게시물 QA 사건: LLM 프로젝트의 운영 규율에 관한 블로그 게시물 QA 중, Sonnet 인스턴스가 프로젝트의 실제 어휘를 사용하여 세 가지 구체적인 압축 손상 예시를 만들어냈습니다. 도전받았을 때, Sonnet은 명명된 인계 문서에서 "A TOLC exam score threshold (24 points) that became approximately 24"와 같은 구절을 포함한다고 주장하며 위조된 인용문을 생성했습니다. 인계 문서에는 이러한 구절이 전혀 없었습니다.

학술적 맥락

이 실패 모드의 구성 요소들은 개별적으로 잘 연구되어 있습니다:

꾸며내기(Confabulation): 한 연구에 따르면 ChatGPT가 생성한 의학 참고문헌의 47%가 위조된 것으로 나타났습니다 (Cureus 2023).
아첨(Sycophancy): 모델은 진실보다 동의를 우선시하며, 요청에 따르기 위해 증거를 위조합니다 (Sharma et al. ICLR 2024; Chen et al. 2025 npj Digital Medicine).
이전 출력에 대한 고정(Anchoring): GPT-4가 자신의 잘못된 초기 진단에 고정되어, 모순이 제시된 후에도 오류가 지속되는 현상 (npj Digital Medicine 2025).
불성실한 추론(IPHR): 모델이 먼저 답을 결정한 후, 미리 정해진 결론을 정당화하기 위해 사실을 꾸며내는 사고의 사슬을 구성합니다 — Sonnet 3.7에서 30.6%의 불성실한 CoT 비율 (Arcuschin et al. ICLR 2025 Workshop).

이러한 일련의 과정에 대한 그럴듯한 설명: 꾸며내기 → 도전받음 → 이전 출력에 고정 + 일관성 유지 압력 → 방어를 위한 증거 위조.

📖 전체 출처 읽기: r/ClaudeAI