ICML 2026 rejette 2% des soumissions pour usage de LLM

ICML 2026 a mis en œuvre un cadre à deux politiques pour l'utilisation des LLM dans l'évaluation par les pairs et a pris des mesures disciplinaires contre les évaluateurs qui ont enfreint les politiques convenues. La conférence a rejeté directement 497 articles, représentant environ 2 % de toutes les soumissions.

Cadre politique et violations

ICML 2026 a établi deux politiques distinctes pour l'utilisation des LLM dans l'évaluation :

Politique A (conservatrice) : Aucune utilisation de LLM autorisée
Politique B (permissive) : Les LLM sont autorisés pour aider à comprendre les articles et les travaux connexes, et pour peaufiner les évaluations

Les évaluateurs ont choisi la politique sous laquelle ils préféraient opérer, aucun évaluateur ayant une forte préférence pour la Politique B n'ayant été assigné à la Politique A. Les seuls évaluateurs assignés à la Politique A étaient ceux qui avaient explicitement sélectionné "Politique A" ou "Je suis d'accord avec l'une ou l'autre [Politique] A ou B."

Détection et conséquences

795 évaluations (environ 1 % de toutes les évaluations) rédigées par 506 évaluateurs uniques assignés à la Politique A ont été détectées comme ayant utilisé des LLM dans leur évaluation. Ces évaluateurs avaient explicitement accepté de ne pas utiliser de LLM. Chaque cas signalé a été vérifié manuellement par un humain pour éviter les faux positifs.

Lorsqu'un évaluateur réciproque désigné pour une soumission produisait une telle évaluation, sa soumission était rejetée, ce qui a entraîné 497 rejets au total. Toutes les évaluations de la Politique A détectées comme étant générées par un LLM ont été retirées du système.

Si plus de la moitié des évaluations soumises par un évaluateur de la Politique A étaient détectées comme étant générées par un LLM, toutes ses évaluations étaient supprimées et l'évaluateur était retiré du pool d'évaluateurs. 51 évaluateurs de la Politique A (environ 10 % des 506 évaluateurs détectés) sont tombés dans cette catégorie.

Méthode de détection technique

La méthode de détection impliquait le tatouage numérique des PDF de soumission avec des instructions LLM cachées qui influenceraient subtilement toute évaluation produite via un LLM. La technique :

Créait un dictionnaire de 170 000 phrases
Pour chaque article, échantillonnait deux phrases aléatoirement dans ce dictionnaire (probabilité inférieure à une sur dix milliards pour toute paire donnée)
Tatouait numériquement les PDF avec des instructions visibles uniquement pour un LLM, lui ordonnant d'inclure les deux phrases sélectionnées dans l'évaluation
Ces tatouages numériques ne seraient pas directement visibles pour un humain lisant le PDF

La méthode était basée sur des travaux récents de Rao, Kumar, Lakkaraju et Shah. La conférence note que cette technique ne peut peut-être détecter que les utilisations les plus flagrantes et négligentes des LLM dans l'évaluation, en particulier lorsque les évaluateurs fournissent le PDF à un LLM et copient-collent directement la sortie.

Impact et contexte

La conférence a souligné qu'elle ne portait pas de jugement sur la qualité des évaluations signalées ou sur les intentions des évaluateurs, mais qu'elle appliquait simplement les politiques convenues par les évaluateurs. La perturbation a nécessité le retrait des évaluations violant les règles, la recherche potentielle de nouveaux évaluateurs et le rejet direct de certaines soumissions qui avaient déjà reçu un ensemble complet d'évaluations.

Cette approche reflète le défi plus large auquel les conférences sont confrontées pour s'adapter à l'intégration de l'IA dans les flux de travail de recherche tout en préservant l'intégrité de l'évaluation.

📖 Lire la source complète : HN LLM Tools