ICML 2026 rechaza el 2% de los artículos por violaciones a la política de revisión con LLM.

ICML 2026 ha implementado un marco de dos políticas para el uso de LLM en la revisión por pares y ha tomado medidas disciplinarias contra los revisores que violaron las políticas acordadas. La conferencia rechazó 497 artículos, lo que representa aproximadamente el 2% de todos los envíos.
Marco de Políticas y Violaciones
ICML 2026 estableció dos políticas distintas para el uso de LLM en la revisión:
- Política A (Conservadora): No se permite el uso de LLM
- Política B (Permisiva): Se permiten LLM para ayudar a comprender los artículos y trabajos relacionados, y para pulir las revisiones
Los revisores seleccionaron bajo qué política preferían operar, sin asignar a ningún revisor que prefiriera firmemente la Política B a la Política A. Los únicos revisores asignados a la Política A fueron aquellos que seleccionaron explícitamente "Política A" o "Estoy bien con cualquiera [Política] A o B".
Detección y Consecuencias
Se detectó que 795 revisiones (~1% de todas las revisiones) escritas por 506 revisores únicos asignados a la Política A habían usado LLM en su revisión. Estos revisores habían acordado explícitamente no usar LLM. Cada instancia marcada fue verificada manualmente por un humano para evitar falsos positivos.
Cuando un Revisor Recíproco designado para un envío produjo tal revisión, su envío fue rechazado, resultando en 497 rechazos en total. Todas las revisiones de la Política A detectadas como generadas por LLM fueron eliminadas del sistema.
Si más de la mitad de las revisiones enviadas por un revisor de la Política A fueron detectadas como generadas por LLM, todas sus revisiones fueron eliminadas y el revisor fue removido del grupo de revisores. 51 revisores de la Política A (aproximadamente el 10% de los 506 revisores detectados) cayeron en esta categoría.
Método Técnico de Detección
El método de detección implicó marcar con filigrana los PDF de envío con instrucciones ocultas para LLM que influirían sutilmente en cualquier revisión producida a través de un LLM. La técnica:
- Creó un diccionario de 170,000 frases
- Para cada artículo, tomó dos frases al azar de este diccionario (probabilidad menor a uno en diez mil millones para cualquier par dado)
- Marcó con filigrana los PDF con instrucciones visibles solo para un LLM, indicándole que incluyera las dos frases seleccionadas en la revisión
- Estas marcas de agua no serían directamente visibles para un humano que lea el PDF
El método se basó en trabajos recientes de Rao, Kumar, Lakkaraju y Shah. La conferencia señala que esta técnica puede solo capturar los usos más flagrantes y descuidados de LLM en la revisión, particularmente donde los revisores ingresan el PDF a un LLM y copian y pegan directamente la salida.
Impacto y Contexto
La conferencia enfatizó que no están emitiendo juicios sobre la calidad de las revisiones marcadas o las intenciones de los revisores, sino simplemente haciendo cumplir las políticas que los revisores acordaron. La interrupción ha requerido eliminar revisiones que violan las políticas, potencialmente encontrar nuevos revisores y rechazar algunos envíos que ya habían recibido un conjunto completo de revisiones.
Este enfoque refleja el desafío más amplio que enfrentan las conferencias al adaptarse a la integración de la IA en los flujos de trabajo de investigación mientras mantienen la integridad de la revisión.
📖 Read the full source: HN LLM Tools
👀 Ver también

Residentes de Maryland enfrentan una actualización de la red eléctrica de $2 mil millones para centros de datos de IA fuera del estado: el estado presenta una queja ante la FERC
La Oficina de Abogados del Pueblo de Maryland presentó una queja ante la FERC contra PJM Interconnection, que asignó $2 mil millones de una actualización de la red de $22 mil millones a los clientes de Maryland, costando a los residentes aproximadamente $345 cada uno, principalmente para beneficiar a centros de datos de IA fuera del estado.

inclusionAI lanza Ling-2.6-1T: Modelo de billón de parámetros con arquitectura híbrida, atención dispersa y pensamiento rápido
Ling-2.6-1T es un nuevo modelo de código abierto con un billón de parámetros que combina MLA y Atención Lineal para lograr eficiencia en contextos largos, utilizando Supresión de Redundancia de Procesos Contextuales para reducir cadenas de pensamiento verbosas. Alcanza el SOTA de código abierto en AIME26, SWE-bench Verified, BFCL-V4, TAU2-Bench e IFBench.

Reescritura del código base de 18 meses de Autonoma: lecciones sobre pruebas, deuda técnica y Acciones de Servidor
Autonoma desechó 1.5 años de código después de escalar de 2 a 14 ingenieros, citando la falta de pruebas, TypeScript no estricto y las limitaciones de Server Actions como las razones clave para la reescritura.

Claude Code 2.1.136: Seguridad de Acción, Reglas de Denegación Estricta y Monitor de Seguridad
Claude Code CC 2.1.136 agrega seguridad en las acciones y requisitos de informes veraces, introduce hard_deny como una cuarta categoría de reglas personalizadas y divide el bloqueo de seguridad en bloqueos duros incondicionales y bloqueos suaves autorizables por el usuario.