LLM 준결정성: AI 슬롭이 드러나는 방식

최근 Substack 게시글에서 lcamtuf(AFL 등 도구로 유명한 보안 연구원)는 인간이 작성한 텍스트와 LLM 출력을 구분할 수 있는지에 대한 반복되는 논쟁을 다룹니다. 그의 주장은 현재 모델이 실제로 어떻게 동작하는지에 대한 구체적인 관찰에 기반합니다.

핵심 주장: 준결정성

LLM은 인간 언어의 최첨단 통계 모델입니다. 이론적으로 그들의 출력은 어떤 통계 테스트에서도 인간 텍스트와 구별할 수 없어야 합니다. 그러나 lcamtuf는 실제 구별 요소는 준결정성이라고 주장합니다. 즉, 100명의 '저자'에게 비슷한 프롬프트(예: '어린이 참고서를 만들어 줘')를 주면 모델은 약 80%의 경우 기능적으로 동일한 출력을 생성합니다.

그는 '100000 whys' 검색 결과에서 나온 약 220개의 Amazon 책 표지 콜라주(링크)로 이를 설명합니다. 이미지는 거의 동일한 표지들의 클러스터를 보여줍니다:

위쪽 두 줄 모두 왼쪽에 포효하는 T-Rex가 있습니다
반복되는 모티프: 빨간색과 흰색 만화 로켓, 골든 리트리버, 사자
저자 이름에는 'Bright'가 믿기지 않을 정도로 많이 포함됩니다: Ethan, Nolan, Pamela, Daniel, Thomas, Andrew W., Mayan, Mary, Levi — 모두 Bright입니다

개발자에게 중요한 이유

AI 생성 콘텐츠를 출시하거나 LLM API 기반으로 구축하는 팀에게 이는 무작위성으로 AI 기원을 숨길 수 없다는 의미입니다. 통계적 특징은 개별 단어 선택이 아니라 유사한 프롬프트에 모델이 동일한 고수준 응답 구조를 반환한다는 점입니다. 비슷한 프롬프트에서 많은 변형을 생성하는 워크플로우라면 출력이 군집화되어 쉽게 식별됩니다.

lcamtuf는 말합니다: '이것은 애매한 신호이므로 인턴이 "이게 아니라 저것이다"라고 말한다고 해고하지 마세요. 그러나 더 캐주얼한 환경에서는 직감을 믿어도 괜찮습니다.'