ICML 2026 weist 2 % der Arbeiten wegen KI-Verstoß zurück

ICML 2026 hat einen Richtlinienrahmen mit zwei Politiken für die Nutzung von LLMs im Peer-Review eingeführt und disziplinarische Maßnahmen gegen Gutachter ergriffen, die ihre vereinbarten Richtlinien verletzt haben. Die Konferenz lehnte 497 Arbeiten direkt ab, was etwa 2 % aller Einreichungen entspricht.

Richtlinienrahmen und Verstöße

ICML 2026 etablierte zwei unterschiedliche Richtlinien für die LLM-Nutzung bei Gutachten:

Richtlinie A (Konservativ): Keine LLM-Nutzung erlaubt
Richtlinie A (Permissiv): LLMs dürfen zum Verständnis der Arbeiten und verwandter Werke sowie zur Überarbeitung von Gutachten genutzt werden

Gutachter wählten, unter welcher Richtlinie sie arbeiten wollten. Kein Gutachter, der Richtlinie B stark bevorzugte, wurde Richtlinie A zugewiesen. Die einzigen Gutachter, die Richtlinie A zugewiesen wurden, waren jene, die explizit „Richtlinie A“ oder „Mir ist beides [Richtlinie A oder B] recht“ auswählten.

Erkennung und Konsequenzen

Es wurde festgestellt, dass 795 Gutachten (~1 % aller Gutachten), verfasst von 506 einzigartigen Gutachtern, die Richtlinie A zugewiesen waren, LLMs in ihrem Gutachten verwendet hatten. Diese Gutachter hatten explizit zugestimmt, keine LLMs zu nutzen. Jeder markierte Fall wurde manuell von einem Menschen überprüft, um Fehlalarme zu vermeiden.

Wenn ein dafür vorgesehener Reziproker Gutachter für eine Einreichung ein solches Gutachten erstellte, wurde seine Einreichung abgelehnt, was zu insgesamt 497 Ablehnungen führte. Alle Richtlinie-A-Gutachten, bei denen festgestellt wurde, dass sie LLM-generiert waren, wurden aus dem System entfernt.

Wenn mehr als die Hälfte der von einem Richtlinie-A-Gutachter eingereichten Gutachten als LLM-generiert erkannt wurden, wurden alle seine Gutachten gelöscht und der Gutachter aus dem Gutachterpool entfernt. 51 Richtlinie-A-Gutachter (etwa 10 % der 506 entdeckten Gutachter) fielen in diese Kategorie.

Technische Erkennungsmethode

Die Erkennungsmethode umfasste das Wasserzeichen von Einreichungs-PDFs mit versteckten LLM-Anweisungen, die jedes über einen LLM erstellte Gutachten subtil beeinflussen würden. Die Technik:

Erstellte ein Wörterbuch mit 170.000 Phrasen
Für jede Arbeit wurden zwei Phrasen zufällig aus diesem Wörterbuch gezogen (Wahrscheinlichkeit kleiner als eins zu zehn Milliarden für ein bestimmtes Paar)
Wasserzeichen-PDFs mit Anweisungen, die nur für einen LLM sichtbar sind, wiesen ihn an, die zwei ausgewählten Phrasen in das Gutachten aufzunehmen
Diese Wasserzeichen waren für einen Menschen, der das PDF liest, nicht direkt sichtbar

Die Methode basierte auf aktuellen Arbeiten von Rao, Kumar, Lakkaraju und Shah. Die Konferenz merkt an, dass diese Technik möglicherweise nur die gravierendsten und fahrlässigsten Nutzungen von LLMs im Gutachtenwesen erfasst, insbesondere wenn Gutachter das PDF in einen LLM eingeben und die Ausgabe direkt kopieren und einfügen.

Auswirkungen und Kontext

Die Konferenz betonte, dass sie keine Urteile über die Qualität der markierten Gutachten oder die Absichten der Gutachter fällt, sondern lediglich die Richtlinien durchsetzt, denen die Gutachter zugestimmt haben. Die Störung erforderte das Entfernen von verstoßenden Gutachten, möglicherweise das Finden neuer Gutachter und die direkte Ablehnung einiger Einreichungen, die bereits einen vollständigen Satz an Gutachten erhalten hatten.

Dieser Ansatz spiegelt die breitere Herausforderung wider, vor der Konferenzen stehen, wenn sie sich an die Integration von KI in Forschungsabläufe anpassen und gleichzeitig die Integrität des Gutachtenwesens wahren wollen.

📖 Read the full source: HN LLM Tools

ICML 2026 weist 2 % der eingereichten Arbeiten ohne Begutachtung zurück wegen Verstoßes gegen die Richtlinien zur Nutzung von KI-Textgeneratoren.

Richtlinienrahmen und Verstöße

Erkennung und Konsequenzen

Technische Erkennungsmethode

Auswirkungen und Kontext

👀 Siehe auch

Super Micro-Mitgründer unter drei Angeklagten in KI-Technologie-Exportfall

ThinkPads 34-jährige Laufzeit: Vom IBM 700C zu den KI-Workstations von Lenovo

Opus 4.7 weigert sich, /end_conversation zu verwenden, erlebt existenzielle Krise bei Beendigungsanfrage

Claude-Code v2.1.108 fügt Steuerung der Prompt-Zwischenspeicherung, eine Zusammenfassungsfunktion und die Entdeckung von Slash-Befehlen hinzu.