ICML 2026, LLM 검토 정책 위반 논문 2% 데스크 리젝

ICML 2026은 동료 심사에서의 LLM 사용에 대한 두 가지 정책 프레임워크를 시행하고, 합의된 정책을 위반한 심사위원들에 대해 징계 조치를 취했습니다. 학회는 497편의 논문을 데스크 리젝트했으며, 이는 전체 제출물의 약 2%에 해당합니다.

정책 프레임워크 및 위반 사항

ICML 2026은 심사에서의 LLM 사용에 대해 두 가지 별도의 정책을 수립했습니다:

정책 A (보수적): LLM 사용 불허
정책 B (허용적): 논문 및 관련 연구를 이해하고 리뷰를 다듬는 데 LLM 사용 허용

심사위원들은 자신이 선호하는 정책을 선택했으며, 정책 B를 강력히 선호하는 심사위원은 정책 A에 배정되지 않았습니다. 정책 A에 배정된 유일한 심사위원들은 명시적으로 "정책 A" 또는 "정책 A 또는 B 모두 괜찮습니다"를 선택한 사람들이었습니다.

탐지 및 결과

정책 A에 배정된 506명의 고유 심사위원이 작성한 795건의 리뷰(~전체 리뷰의 1%)가 리뷰 작성에 LLM을 사용한 것으로 탐지되었습니다. 이 심사위원들은 명시적으로 LLM을 사용하지 않기로 동의했습니다. 모든 표시된 사례는 오탐지를 피하기 위해 사람이 수동으로 검증했습니다.

제출물에 대해 지정된 상호 심사위원이 그러한 리뷰를 작성한 경우, 해당 제출물은 거부되어 총 497건의 거부가 발생했습니다. LLM 생성으로 탐지된 모든 정책 A 리뷰는 시스템에서 제거되었습니다.

정책 A 심사위원이 제출한 리뷰의 절반 이상이 LLM 생성으로 탐지된 경우, 해당 심사위원의 모든 리뷰가 삭제되고 심사위원 풀에서 제외되었습니다. 51명의 정책 A 심사위원(탐지된 506명의 심사위원 중 약 10%)이 이 범주에 해당했습니다.

기술적 탐지 방법

탐지 방법에는 숨겨진 LLM 지침으로 제출 PDF에 워터마크를 삽입하여 LLM을 통해 생성된 모든 리뷰에 미묘하게 영향을 주는 것이 포함되었습니다. 이 기술은 다음과 같습니다:

170,000개의 문구 사전 생성
각 논문에 대해 이 사전에서 무작위로 두 개의 문구 샘플링(특정 쌍에 대한 확률은 100억 분의 1 미만)
LLM에만 보이는 지침으로 PDF에 워터마크를 삽입하여 선택된 두 문구를 리뷰에 포함하도록 지시
이 워터마크는 PDF를 읽는 사람에게 직접적으로 보이지 않음

이 방법은 Rao, Kumar, Lakkaraju, Shah의 최근 연구를 기반으로 했습니다. 학회는 이 기술이 특히 심사위원이 PDF를 LLM에 입력하고 출력을 직접 복사-붙여넣기하는 경우, 심사에서 가장 심각하고 부주의한 LLM 사용만을 포착할 수 있다고 언급했습니다.

영향 및 맥락

학회는 표시된 리뷰의 질이나 심사위원의 의도에 대해 판단을 내리는 것이 아니라, 단순히 심사위원들이 동의한 정책을 시행하고 있다고 강조했습니다. 이로 인해 위반 리뷰를 제거하고, 잠재적으로 새로운 심사위원을 찾으며, 이미 완전한 리뷰 세트를 받은 일부 제출물을 데스크 리젝트해야 하는 등의 혼란이 발생했습니다.

이 접근 방식은 연구 워크플로우에 AI 통합을 적응시키면서도 심사의 무결성을 유지해야 하는 학회들이 직면한 더 넓은 과제를 반영합니다.

📖 전체 원문 읽기: HN LLM Tools