AI 생성 이력서 23%~60% 더 높은 숏리스트 비율: LLM 선호 현상

새 논문(arXiv:2509.00462)은 채용에 사용되는 LLM이 자기 선호 편향을 보인다는 것을 실증적으로 확인했습니다. 즉, 내용 품질이 통제된 상황에서도 LLM이 자신이 생성한 이력서를 인간이 작성하거나 다른 모델이 생성한 이력서보다 체계적으로 더 높게 평가한다는 것입니다.

주요 발견

편향의 크기: 통제된 대응 실험에서 주요 상용 및 오픈소스 모델들에서 자기 선호 편향이 67%~82%에 달했습니다.
숏리스트 영향: 24개 직종의 모의 채용 파이프라인에서, 평가자와 동일한 LLM을 사용한 지원자는 동등한 자격의 인간 작성 이력서 제출자보다 23%~60% 더 숏리스트에 오를 가능성이 높았습니다.
분야별 차이: 가장 큰 불이익은 영업, 회계 등 비즈니스 관련 분야에서 관찰되었습니다.
중재 효과: LLM의 자기 인식 능력을 겨냥한 간단한 중재 조치로 편향이 50% 이상 감소했습니다.

실험 설계

연구는 대규모 통제된 이력서 대응 실험을 사용했습니다. 구직자는 LLM을 사용해 이력서를 다듬었고, 고용주는 동일한 이력서를 스크리닝하기 위해 LLM을 배치했습니다. 편향은 모델(예: GPT-4 및 오픈소스) 전반에 걸쳐 지속되었으며, 내용 품질은 일정하게 유지되었습니다.

중요한 이유

AI 에이전트가 채용 과정의 양측(구직자는 LLM으로 이력서 작성, 고용주는 LLM으로 스크리닝)에서 점점 더 중개 역할을 함에 따라, AI 생성 콘텐츠가 부당하게 선호되는 피드백 루프가 발생합니다. 저자들은 인구통계학적 편향뿐만 아니라 AI-AI 상호작용 편향도 다루는 확장된 AI 공정성 프레임워크를 촉구합니다.