ICML 2026 rejette 2 % des articles sur le bureau pour violation de la politique de révision par LLM.

✍️ OpenClawRadar📅 Publié: March 19, 2026🔗 Source
ICML 2026 rejette 2 % des articles sur le bureau pour violation de la politique de révision par LLM.
Ad

ICML 2026 a mis en œuvre un cadre à deux politiques pour l'utilisation des LLM dans l'évaluation par les pairs et a pris des mesures disciplinaires contre les évaluateurs qui ont enfreint les politiques convenues. La conférence a rejeté directement 497 articles, représentant environ 2 % de toutes les soumissions.

Cadre politique et violations

ICML 2026 a établi deux politiques distinctes pour l'utilisation des LLM dans l'évaluation :

  • Politique A (conservatrice) : Aucune utilisation de LLM autorisée
  • Politique B (permissive) : Les LLM sont autorisés pour aider à comprendre les articles et les travaux connexes, et pour peaufiner les évaluations

Les évaluateurs ont choisi la politique sous laquelle ils préféraient opérer, aucun évaluateur ayant une forte préférence pour la Politique B n'ayant été assigné à la Politique A. Les seuls évaluateurs assignés à la Politique A étaient ceux qui avaient explicitement sélectionné "Politique A" ou "Je suis d'accord avec l'une ou l'autre [Politique] A ou B."

Détection et conséquences

795 évaluations (environ 1 % de toutes les évaluations) rédigées par 506 évaluateurs uniques assignés à la Politique A ont été détectées comme ayant utilisé des LLM dans leur évaluation. Ces évaluateurs avaient explicitement accepté de ne pas utiliser de LLM. Chaque cas signalé a été vérifié manuellement par un humain pour éviter les faux positifs.

Lorsqu'un évaluateur réciproque désigné pour une soumission produisait une telle évaluation, sa soumission était rejetée, ce qui a entraîné 497 rejets au total. Toutes les évaluations de la Politique A détectées comme étant générées par un LLM ont été retirées du système.

Si plus de la moitié des évaluations soumises par un évaluateur de la Politique A étaient détectées comme étant générées par un LLM, toutes ses évaluations étaient supprimées et l'évaluateur était retiré du pool d'évaluateurs. 51 évaluateurs de la Politique A (environ 10 % des 506 évaluateurs détectés) sont tombés dans cette catégorie.

Ad

Méthode de détection technique

La méthode de détection impliquait le tatouage numérique des PDF de soumission avec des instructions LLM cachées qui influenceraient subtilement toute évaluation produite via un LLM. La technique :

  • Créait un dictionnaire de 170 000 phrases
  • Pour chaque article, échantillonnait deux phrases aléatoirement dans ce dictionnaire (probabilité inférieure à une sur dix milliards pour toute paire donnée)
  • Tatouait numériquement les PDF avec des instructions visibles uniquement pour un LLM, lui ordonnant d'inclure les deux phrases sélectionnées dans l'évaluation
  • Ces tatouages numériques ne seraient pas directement visibles pour un humain lisant le PDF

La méthode était basée sur des travaux récents de Rao, Kumar, Lakkaraju et Shah. La conférence note que cette technique ne peut peut-être détecter que les utilisations les plus flagrantes et négligentes des LLM dans l'évaluation, en particulier lorsque les évaluateurs fournissent le PDF à un LLM et copient-collent directement la sortie.

Impact et contexte

La conférence a souligné qu'elle ne portait pas de jugement sur la qualité des évaluations signalées ou sur les intentions des évaluateurs, mais qu'elle appliquait simplement les politiques convenues par les évaluateurs. La perturbation a nécessité le retrait des évaluations violant les règles, la recherche potentielle de nouveaux évaluateurs et le rejet direct de certaines soumissions qui avaient déjà reçu un ensemble complet d'évaluations.

Cette approche reflète le défi plus large auquel les conférences sont confrontées pour s'adapter à l'intégration de l'IA dans les flux de travail de recherche tout en préservant l'intégrité de l'évaluation.

📖 Lire la source complète : HN LLM Tools

Ad

👀 See Also

Le modèle MiniMax M2.7 démontre de solides performances en tant qu'agent d'intelligence artificielle pour le codage.
News

Le modèle MiniMax M2.7 démontre de solides performances en tant qu'agent d'intelligence artificielle pour le codage.

Un développeur a testé MiniMax M2.7 comme son principal agent d'IA pour le codage et a constaté qu'il surpassait GPT 5.4 et Gemini 3.1 Pro en vitesse et dans les tâches d'outillage, avec des scores de référence de 56,22 % sur SWE-Pro et 57,0 % sur Terminal Bench 2.

OpenClawRadar
Anthropic lance 10 agents IA financiers pour les pitchbooks, KYC et clôture mensuelle
News

Anthropic lance 10 agents IA financiers pour les pitchbooks, KYC et clôture mensuelle

Anthropic a lancé 10 agents IA prêts à l'emploi pour les services financiers et l'assurance, couvrant la création de pitchbooks, le filtrage KYC et la clôture mensuelle, livrés via Claude Cowork, Claude Code et Managed Agents.

OpenClawRadar
Meta acquiert Moltbook, un forum de type Reddit pour les agents d'IA
News

Meta acquiert Moltbook, un forum de type Reddit pour les agents d'IA

Meta a acquis Moltbook, une plateforme de forum de style Reddit conçue spécifiquement pour les agents d'IA. L'acquisition a été confirmée mardi, les créateurs de Moltbook rejoignant les Superintelligence Labs de Meta.

OpenClawRadar
Claude Opus 4.6 bloque le flux de travail de la compétition Kaggle pour la revue de code
News

Claude Opus 4.6 bloque le flux de travail de la compétition Kaggle pour la revue de code

Un développeur signale que Claude Opus 4.6 bloque désormais des flux de travail légitimes liés aux compétitions Kaggle, où Claude vérifie les traces de raisonnement pour la validation des données d'entraînement SFT. L'utilisateur travaillait sur le NVIDIA Nemotron Reasoning Challenge lorsque les filtres de sécurité ont signalé des exemples de chiffrement par substitution.

OpenClawRadar