ICML 2026 Rejeita 2% dos Artigos por Violação de Revisão com LLM

A ICML 2026 implementou uma estrutura de duas políticas para o uso de LLMs na revisão por pares e tomou medidas disciplinares contra revisores que violaram as políticas acordadas. A conferência rejeitou diretamente 497 artigos, representando aproximadamente 2% de todas as submissões.

Estrutura de Políticas e Violações

A ICML 2026 estabeleceu duas políticas distintas para o uso de LLMs na revisão:

Política A (Conservadora): Não é permitido o uso de LLMs
Política B (Permissiva): LLMs permitidos para ajudar a entender os artigos e trabalhos relacionados, e para aprimorar as avaliações

Os revisores selecionaram qual política preferiam operar, sem que nenhum revisor que preferisse fortemente a Política B fosse designado para a Política A. Os únicos revisores designados para a Política A foram aqueles que explicitamente selecionaram "Política A" ou "Estou de acordo com qualquer uma das políticas [A ou B]".

Detecção e Consequências

795 avaliações (cerca de 1% de todas as avaliações) escritas por 506 revisores únicos designados para a Política A foram detectadas como tendo usado LLMs em suas avaliações. Esses revisores haviam concordado explicitamente em não usar LLMs. Cada caso sinalizado foi verificado manualmente por um humano para evitar falsos positivos.

Quando um Revisor Recíproco designado para uma submissão produziu tal avaliação, sua submissão foi rejeitada, resultando em 497 rejeições no total. Todas as avaliações da Política A detectadas como geradas por LLM foram removidas do sistema.

Se mais da metade das avaliações enviadas por um revisor da Política A fossem detectadas como geradas por LLM, todas as suas avaliações eram excluídas e o revisor era removido do grupo de revisores. 51 revisores da Política A (cerca de 10% dos 506 revisores detectados) se enquadraram nessa categoria.

Método Técnico de Detecção

O método de detecção envolveu a marcação d'água dos PDFs de submissão com instruções ocultas para LLMs que influenciariam sutilmente qualquer avaliação produzida via LLM. A técnica:

Criou um dicionário de 170.000 frases
Para cada artigo, amostrou duas frases aleatoriamente deste dicionário (probabilidade menor que uma em dez bilhões para qualquer par específico)
Marcou os PDFs com instruções visíveis apenas para um LLM, instruindo-o a incluir as duas frases selecionadas na avaliação
Essas marcas d'água não seriam diretamente visíveis para um humano lendo o PDF

O método foi baseado em trabalho recente de Rao, Kumar, Lakkaraju e Shah. A conferência observa que esta técnica pode capturar apenas os usos mais flagrantes e descuidados de LLMs na revisão, particularmente onde os revisores inserem o PDF em um LLM e copiam e colam diretamente a saída.

Impacto e Contexto

A conferência enfatizou que não está fazendo julgamentos sobre a qualidade das avaliações sinalizadas ou das intenções dos revisores, mas simplesmente aplicando as políticas que os revisores concordaram. A interrupção exigiu a remoção de avaliações violadoras, potencialmente encontrar novos revisores e rejeitar diretamente algumas submissões que já haviam recebido um conjunto completo de avaliações.

Esta abordagem reflete o desafio mais amplo que as conferências enfrentam ao se adaptar à integração da IA nos fluxos de trabalho de pesquisa, mantendo a integridade da revisão.

📖 Leia a fonte completa: HN LLM Tools