ICML 2026 weist 2 % der eingereichten Arbeiten ohne Begutachtung zurück wegen Verstoßes gegen die Richtlinien zur Nutzung von KI-Textgeneratoren.

ICML 2026 hat einen Richtlinienrahmen mit zwei Politiken für die Nutzung von LLMs im Peer-Review eingeführt und disziplinarische Maßnahmen gegen Gutachter ergriffen, die ihre vereinbarten Richtlinien verletzt haben. Die Konferenz lehnte 497 Arbeiten direkt ab, was etwa 2 % aller Einreichungen entspricht.
Richtlinienrahmen und Verstöße
ICML 2026 etablierte zwei unterschiedliche Richtlinien für die LLM-Nutzung bei Gutachten:
- Richtlinie A (Konservativ): Keine LLM-Nutzung erlaubt
- Richtlinie A (Permissiv): LLMs dürfen zum Verständnis der Arbeiten und verwandter Werke sowie zur Überarbeitung von Gutachten genutzt werden
Gutachter wählten, unter welcher Richtlinie sie arbeiten wollten. Kein Gutachter, der Richtlinie B stark bevorzugte, wurde Richtlinie A zugewiesen. Die einzigen Gutachter, die Richtlinie A zugewiesen wurden, waren jene, die explizit „Richtlinie A“ oder „Mir ist beides [Richtlinie A oder B] recht“ auswählten.
Erkennung und Konsequenzen
Es wurde festgestellt, dass 795 Gutachten (~1 % aller Gutachten), verfasst von 506 einzigartigen Gutachtern, die Richtlinie A zugewiesen waren, LLMs in ihrem Gutachten verwendet hatten. Diese Gutachter hatten explizit zugestimmt, keine LLMs zu nutzen. Jeder markierte Fall wurde manuell von einem Menschen überprüft, um Fehlalarme zu vermeiden.
Wenn ein dafür vorgesehener Reziproker Gutachter für eine Einreichung ein solches Gutachten erstellte, wurde seine Einreichung abgelehnt, was zu insgesamt 497 Ablehnungen führte. Alle Richtlinie-A-Gutachten, bei denen festgestellt wurde, dass sie LLM-generiert waren, wurden aus dem System entfernt.
Wenn mehr als die Hälfte der von einem Richtlinie-A-Gutachter eingereichten Gutachten als LLM-generiert erkannt wurden, wurden alle seine Gutachten gelöscht und der Gutachter aus dem Gutachterpool entfernt. 51 Richtlinie-A-Gutachter (etwa 10 % der 506 entdeckten Gutachter) fielen in diese Kategorie.
Technische Erkennungsmethode
Die Erkennungsmethode umfasste das Wasserzeichen von Einreichungs-PDFs mit versteckten LLM-Anweisungen, die jedes über einen LLM erstellte Gutachten subtil beeinflussen würden. Die Technik:
- Erstellte ein Wörterbuch mit 170.000 Phrasen
- Für jede Arbeit wurden zwei Phrasen zufällig aus diesem Wörterbuch gezogen (Wahrscheinlichkeit kleiner als eins zu zehn Milliarden für ein bestimmtes Paar)
- Wasserzeichen-PDFs mit Anweisungen, die nur für einen LLM sichtbar sind, wiesen ihn an, die zwei ausgewählten Phrasen in das Gutachten aufzunehmen
- Diese Wasserzeichen waren für einen Menschen, der das PDF liest, nicht direkt sichtbar
Die Methode basierte auf aktuellen Arbeiten von Rao, Kumar, Lakkaraju und Shah. Die Konferenz merkt an, dass diese Technik möglicherweise nur die gravierendsten und fahrlässigsten Nutzungen von LLMs im Gutachtenwesen erfasst, insbesondere wenn Gutachter das PDF in einen LLM eingeben und die Ausgabe direkt kopieren und einfügen.
Auswirkungen und Kontext
Die Konferenz betonte, dass sie keine Urteile über die Qualität der markierten Gutachten oder die Absichten der Gutachter fällt, sondern lediglich die Richtlinien durchsetzt, denen die Gutachter zugestimmt haben. Die Störung erforderte das Entfernen von verstoßenden Gutachten, möglicherweise das Finden neuer Gutachter und die direkte Ablehnung einiger Einreichungen, die bereits einen vollständigen Satz an Gutachten erhalten hatten.
Dieser Ansatz spiegelt die breitere Herausforderung wider, vor der Konferenzen stehen, wenn sie sich an die Integration von KI in Forschungsabläufe anpassen und gleichzeitig die Integrität des Gutachtenwesens wahren wollen.
📖 Read the full source: HN LLM Tools
👀 Siehe auch

Anthropics Plattformstrategie und die OpenClaw-Reaktion
Ein Entwickler analysiert die jüngsten Einschränkungen von Anthropic für externe Claude-Integrationen als bewusste Plattformstrategie und plädiert für den Aufbau portabler Stacks statt auf das Wohlwollen von Anbietern zu vertrauen.

Atlassian kündigt 1.600 Entlassungen im Zuge der KI-Umstellung an
Atlassian plant, laut einem auf Hacker News geteilten Reuters-Bericht, etwa 1.600 Stellen abzubauen, während sich das Unternehmen auf die KI-Entwicklung konzentriert.

Bloomberg berichtet: Arbeitsplatzverluste in den USA durch KI-Belastung beginnen zuzunehmen
Bloomberg berichtet, dass die USA erhebliche Arbeitsplatzverluste in KI-exponierten Berufen verzeichnen, wobei eine Diskussion auf Hacker News auf reale Auswirkungen auf Entwickler und andere Wissensarbeiter hinweist.

Claude Opus 4.6 effort=low-Parameter verursacht träges Agentenverhalten
Bei der Verwendung von effort=low mit Claude Opus 4.6 führten Agenten weniger Tool-Aufrufe durch, waren weniger gründlich bei der Querverweisprüfung und ignorierten Teile der Systemprompts zur Webrecherche. Der Wechsel zu effort=medium löste die Probleme.