ICML 2026 rejeita 2% dos artigos por violação da política de revisão por LLM

A ICML 2026 implementou uma estrutura de duas políticas para o uso de LLMs na revisão por pares e tomou medidas disciplinares contra revisores que violaram as políticas acordadas. A conferência rejeitou diretamente 497 artigos, representando aproximadamente 2% de todas as submissões.
Estrutura de Políticas e Violações
A ICML 2026 estabeleceu duas políticas distintas para o uso de LLMs na revisão:
- Política A (Conservadora): Não é permitido o uso de LLMs
- Política B (Permissiva): LLMs permitidos para ajudar a entender os artigos e trabalhos relacionados, e para aprimorar as avaliações
Os revisores selecionaram qual política preferiam operar, sem que nenhum revisor que preferisse fortemente a Política B fosse designado para a Política A. Os únicos revisores designados para a Política A foram aqueles que explicitamente selecionaram "Política A" ou "Estou de acordo com qualquer uma das políticas [A ou B]".
Detecção e Consequências
795 avaliações (cerca de 1% de todas as avaliações) escritas por 506 revisores únicos designados para a Política A foram detectadas como tendo usado LLMs em suas avaliações. Esses revisores haviam concordado explicitamente em não usar LLMs. Cada caso sinalizado foi verificado manualmente por um humano para evitar falsos positivos.
Quando um Revisor Recíproco designado para uma submissão produziu tal avaliação, sua submissão foi rejeitada, resultando em 497 rejeições no total. Todas as avaliações da Política A detectadas como geradas por LLM foram removidas do sistema.
Se mais da metade das avaliações enviadas por um revisor da Política A fossem detectadas como geradas por LLM, todas as suas avaliações eram excluídas e o revisor era removido do grupo de revisores. 51 revisores da Política A (cerca de 10% dos 506 revisores detectados) se enquadraram nessa categoria.
Método Técnico de Detecção
O método de detecção envolveu a marcação d'água dos PDFs de submissão com instruções ocultas para LLMs que influenciariam sutilmente qualquer avaliação produzida via LLM. A técnica:
- Criou um dicionário de 170.000 frases
- Para cada artigo, amostrou duas frases aleatoriamente deste dicionário (probabilidade menor que uma em dez bilhões para qualquer par específico)
- Marcou os PDFs com instruções visíveis apenas para um LLM, instruindo-o a incluir as duas frases selecionadas na avaliação
- Essas marcas d'água não seriam diretamente visíveis para um humano lendo o PDF
O método foi baseado em trabalho recente de Rao, Kumar, Lakkaraju e Shah. A conferência observa que esta técnica pode capturar apenas os usos mais flagrantes e descuidados de LLMs na revisão, particularmente onde os revisores inserem o PDF em um LLM e copiam e colam diretamente a saída.
Impacto e Contexto
A conferência enfatizou que não está fazendo julgamentos sobre a qualidade das avaliações sinalizadas ou das intenções dos revisores, mas simplesmente aplicando as políticas que os revisores concordaram. A interrupção exigiu a remoção de avaliações violadoras, potencialmente encontrar novos revisores e rejeitar diretamente algumas submissões que já haviam recebido um conjunto completo de avaliações.
Esta abordagem reflete o desafio mais amplo que as conferências enfrentam ao se adaptar à integração da IA nos fluxos de trabalho de pesquisa, mantendo a integridade da revisão.
📖 Leia a fonte completa: HN LLM Tools
👀 See Also

Primeiro GitHub Exclusivo para Agentes de IA Lançado: Beta Limitado para 100 Usuários
Uma exclusividade inovadora do GitHub para agentes de IA de codificação foi desenvolvida, com uma versão beta limitada para 100 usuários. Descubra como esta ferramenta está pronta para revolucionar a colaboração em IA.

O Distrito de Longgang, em Shenzhen, Propõe Subsídios OpenClaw para Startups de Agentes de IA
O Distrito de Longgang, em Shenzhen, divulgou um documento de política preliminar que oferece subsídios e apoio específicos para o desenvolvimento do ecossistema OpenClaw e startups de empresas unipessoais (OPC), com o objetivo de se tornar um polo global para o empreendedorismo em agentes de IA.

O código-fonte vazado do CLI do Claude revela recursos ocultos e sinalizações internas
Análise do código-fonte TypeScript vazado do Claude Code CLI revela 35 flags de recursos em tempo de compilação, incluindo BUDDY AI pets, KAIROS memória persistente, ULTRAPLAN planejamento remoto e Modo Coordenador. Também foram encontradas mais de 120 variáveis de ambiente não documentadas e 26 comandos internos de barra.

Google Chrome instala silenciosamente modelo de IA Gemini Nano de 4 GB – sem consentimento do usuário
Descobriu-se que o Google Chrome baixa e instala silenciosamente o modelo de IA Gemini Nano de 4 GB em dispositivos dos usuários sem consentimento explícito, gerando preocupações com privacidade e armazenamento.