ICML 2026, LLM 검토 정책 위반 논문 2% 데스크 리젝 처리

ICML 2026은 동료 심사에서의 LLM 사용에 대한 두 가지 정책 프레임워크를 시행하고, 합의된 정책을 위반한 심사위원들에 대해 징계 조치를 취했습니다. 학회는 497편의 논문을 데스크 리젝트했으며, 이는 전체 제출물의 약 2%에 해당합니다.
정책 프레임워크 및 위반 사항
ICML 2026은 심사에서의 LLM 사용에 대해 두 가지 별도의 정책을 수립했습니다:
- 정책 A (보수적): LLM 사용 불허
- 정책 B (허용적): 논문 및 관련 연구를 이해하고 리뷰를 다듬는 데 LLM 사용 허용
심사위원들은 자신이 선호하는 정책을 선택했으며, 정책 B를 강력히 선호하는 심사위원은 정책 A에 배정되지 않았습니다. 정책 A에 배정된 유일한 심사위원들은 명시적으로 "정책 A" 또는 "정책 A 또는 B 모두 괜찮습니다"를 선택한 사람들이었습니다.
탐지 및 결과
정책 A에 배정된 506명의 고유 심사위원이 작성한 795건의 리뷰(~전체 리뷰의 1%)가 리뷰 작성에 LLM을 사용한 것으로 탐지되었습니다. 이 심사위원들은 명시적으로 LLM을 사용하지 않기로 동의했습니다. 모든 표시된 사례는 오탐지를 피하기 위해 사람이 수동으로 검증했습니다.
제출물에 대해 지정된 상호 심사위원이 그러한 리뷰를 작성한 경우, 해당 제출물은 거부되어 총 497건의 거부가 발생했습니다. LLM 생성으로 탐지된 모든 정책 A 리뷰는 시스템에서 제거되었습니다.
정책 A 심사위원이 제출한 리뷰의 절반 이상이 LLM 생성으로 탐지된 경우, 해당 심사위원의 모든 리뷰가 삭제되고 심사위원 풀에서 제외되었습니다. 51명의 정책 A 심사위원(탐지된 506명의 심사위원 중 약 10%)이 이 범주에 해당했습니다.
기술적 탐지 방법
탐지 방법에는 숨겨진 LLM 지침으로 제출 PDF에 워터마크를 삽입하여 LLM을 통해 생성된 모든 리뷰에 미묘하게 영향을 주는 것이 포함되었습니다. 이 기술은 다음과 같습니다:
- 170,000개의 문구 사전 생성
- 각 논문에 대해 이 사전에서 무작위로 두 개의 문구 샘플링(특정 쌍에 대한 확률은 100억 분의 1 미만)
- LLM에만 보이는 지침으로 PDF에 워터마크를 삽입하여 선택된 두 문구를 리뷰에 포함하도록 지시
- 이 워터마크는 PDF를 읽는 사람에게 직접적으로 보이지 않음
이 방법은 Rao, Kumar, Lakkaraju, Shah의 최근 연구를 기반으로 했습니다. 학회는 이 기술이 특히 심사위원이 PDF를 LLM에 입력하고 출력을 직접 복사-붙여넣기하는 경우, 심사에서 가장 심각하고 부주의한 LLM 사용만을 포착할 수 있다고 언급했습니다.
영향 및 맥락
학회는 표시된 리뷰의 질이나 심사위원의 의도에 대해 판단을 내리는 것이 아니라, 단순히 심사위원들이 동의한 정책을 시행하고 있다고 강조했습니다. 이로 인해 위반 리뷰를 제거하고, 잠재적으로 새로운 심사위원을 찾으며, 이미 완전한 리뷰 세트를 받은 일부 제출물을 데스크 리젝트해야 하는 등의 혼란이 발생했습니다.
이 접근 방식은 연구 워크플로우에 AI 통합을 적응시키면서도 심사의 무결성을 유지해야 하는 학회들이 직면한 더 넓은 과제를 반영합니다.
📖 전체 원문 읽기: HN LLM Tools
👀 See Also

레딧 토론에서 AI 생성 코드의 디버깅 어려움을 강조합니다
r/ClaudeAI의 레딧 토론에서는 AI 생성 코드와 관련된 구체적인 문제들을 다루고 있으며, 여기에는 보안 취약점, 논리 환각, 그리고 수동으로 코드를 작성하는 것보다 더 오래 걸릴 수 있는 디버깅 과정이 포함됩니다.

Anthropic 구독 약관 변경, OpenClaw 사용자 이제 에이전트 사용에 대해 별도 청구
Anthropic은 Claude Max 구독을 Claude.ai 및 Claude Code와 같은 자사 플랫폼으로만 제한했으며, 모든 타사 에이전트 사용은 이제 토큰당 '추가 사용량'으로 청구됩니다. 사용자에게는 네 가지 옵션이 있습니다: Max를 유지하고 추가 비용을 지불하거나, Anthropic API로 전환하거나, 다른 제공업체로 전환하거나, Manifest를 통한 지능형 라우팅을 사용하는 것입니다.

Google의 TimesFM 2.5: 160억 컨텍스트를 지원하는 2억 개 파라미터 시계열 모델
Google Research는 TimesFM 2.5를 공개했습니다. 이는 16k 컨텍스트 길이와 최대 1k 수평까지 연속 분위수 예측을 지원하는 2억 파라미터 디코더 전용 시계열 예측 기반 모델입니다.

오케스트레이터: 프로세스보다 의도가 중요해야 하는 이유
현재 에이전트 스택은 정체성과 표면을 뒤집어 놓았습니다. 오케스트레이션 계층은 에이전트와 런타임 사이에 위치해야 하며, 정체성, 라우팅, 핸드오프 프리미티브, 그리고 크로스 드라이버 호출을 제공해야 합니다. 실제 예: Ollama, Gemini CLI, Grok Build에서 하나의 의도로 불안정한 테스트를 분류하기.