연구: AI 사용자, LLM 답변 80% 수용…인지적 항복

펜실베이니아 대학교의 연구는 AI 사용자들이 LLM 도구를 어떻게 접근하는지 조사하며, 사용자들이 비판적 사고를 AI 시스템에 아웃소싱하는 '인지적 항복'이라는 패턴을 확인했습니다.

AI 사용자의 두 가지 범주

연구는 두 가지 광범위한 범주를 확인했습니다: AI를 강력하지만 결함이 있는 서비스로 간주하여 신중한 인간의 감독을 요구하는 사용자와, 자신들이 전지전능한 기계로 보는 것에 비판적 사고를 일상적으로 아웃소싱하는 사용자입니다. 후자 그룹은 '인지적 항복'에 관여합니다 - 최소한의 내부 참여를 제공하고 감독이나 검증 없이 AI의 추론을 전체적으로 수용합니다.

실험 방법론

연구자들은 직관적 사고 과정에서 잘못된 답변을 이끌어내도록 설계되었지만 숙고하는 사고를 가진 사람들에게는 간단한 인지 반사 테스트(CRT)를 사용했습니다. 그들은 참가자들에게 절반의 시간 동안 부정확한 답변을, 나머지 절반의 시간 동안 정확한 답변을 무작위로 제공하도록 수정된 LLM 챗봇에 대한 선택적 접근 권한을 제공했습니다.

주요 발견

AI 접근 권한이 있는 실험 그룹은 CRT 문제의 약 50%에 대해 AI를 참고했습니다
AI가 정확했을 때, 사용자들은 그 추론을 약 93%의 확률로 수용했습니다
AI가 무작위로 결함이 있을 때, 사용자들은 여전히 AI 추론을 80%의 확률로 수용했습니다
AI 사용 그룹은 AI가 정확했을 때 대조군보다 더 잘 수행했고, AI가 부정확했을 때는 더 나쁘게 수행했습니다
AI 사용자들은 AI가 절반의 시간 동안 틀렸음에도 불구하고 신뢰도 측정에서 11.7% 더 높은 점수를 받았습니다

검증 행동에 영향을 미치는 요인

인센티브(소액 지급)와 정답에 대한 즉각적인 피드백을 추가하는 것은 기준선에 비해 결함 있는 AI를 기각할 가능성을 19% 포인트 증가시켰습니다. 시간 압박(30초 타이머)을 추가하는 것은 결함 있는 AI를 수정하려는 경향을 12% 포인트 감소시켰습니다.

연구는 AI 시스템이 인간의 사고 과정이 아닌 외부적, 자동화된, 데이터 기반 추론에 의해 결정이 이루어지는 '인공 인지'의 세 번째 범주를 만들었다고 제안합니다. 이는 계산기와 같은 도구가 인간의 감독과 함께 전략적으로 사용되는 전통적인 '인지적 부담 경감'과 다릅니다.

📖 Read the full source: HN LLM Tools