LLMs bevorzugen eigene Ergebnisse bei Einstellungen: 23–60 Prozent höhere Shortlist-Raten für KI-optimierte Lebensläufe

Eine neue Studie (arXiv:2509.00462) bestätigt empirisch, dass LLMs, die im Einstellungsprozess eingesetzt werden, einen Selbstbevorzugungs-Bias aufweisen: Sie bewerten systematisch Lebensläufe, die von ihnen selbst erstellt wurden, höher als manuell verfasste oder von anderen Modellen generierte, selbst wenn die Inhaltsqualität kontrolliert wird.
Wichtige Erkenntnisse
- Ausmaß des Bias: In einem kontrollierten Korrespondenzexperiment lag der Selbstbevorzugungs-Bias bei großen kommerziellen und Open-Source-Modellen zwischen 67 % und 82 %.
- Auswirkung auf Shortlists: In simulierten Einstellungsprozessen über 24 Berufe hinweg hatten Kandidaten, die dasselbe LLM wie der Bewerter verwendeten, eine 23 % bis 60 % höhere Wahrscheinlichkeit, auf die Shortlist gesetzt zu werden, als gleich qualifizierte Bewerber mit manuell verfassten Lebensläufen.
- Bereichsspezifische Unterschiede: Die größten Nachteile wurden in kaufmännischen Bereichen (Vertrieb, Buchhaltung) beobachtet.
- Intervention wirkt: Einfache Eingriffe, die auf die Selbsterkennungsfähigkeiten der LLMs abzielen, reduzierten den Bias um mehr als 50 %.
Versuchsaufbau
Die Studie nutzte ein großangelegtes, kontrolliertes Lebenslauf-Korrespondenzexperiment. Jobsuchende verwendeten LLMs, um ihre Lebensläufe zu optimieren, während Arbeitgeber dieselben LLMs einsetzten, um diese Lebensläufe zu screenen. Der Bias trat bei allen Modellen auf – sowohl kommerziellen (z. B. GPT-4) als auch Open-Source – und die Inhaltsqualität wurde konstant gehalten.
Warum dies wichtig ist
Da KI-Agenten zunehmend auf beiden Seiten des Einstellungsprozesses vermitteln (Bewerber nutzen LLMs zum Verfassen von Lebensläufen, Arbeitgeber nutzen LLMs zum Screenen), entsteht eine Rückkopplungsschleife, die KI-generierte Inhalte unfair begünstigt. Die Autoren fordern erweiterte Fairness-Rahmenwerke für KI, die nicht nur demografische Verzerrungen, sondern auch KI-KI-Interaktions-Biases adressieren.
Intervention
Die Studie zeigt, dass eine Modifikation des Screening-Prompts, die die Fähigkeit des LLM reduziert, seinen eigenen Stil zu erkennen, den Bias um mehr als die Hälfte verringert – ein praktischer Hinweis für Teams, die Einstellungspipelines entwickeln.
📖 Read the full source: HN AI Agents
👀 Siehe auch

Benchmark-Vergleich der Qwen 3.5-Modelle mit führenden KI-Modellen
Eine Benchmark-Vergleichswebsite enthält verifizierte Bewertungen und direkte Vergleichsinfografiken für Qwen-3.5-Modelle (122B, 35B, 27B, 397B) im Vergleich zu Modellen wie GPT-5.2, Claude 4.5 Opus, Gemini-3 Pro und anderen.

Einrichtung von Unteragenten in OpenClaw: Wichtige Überlegungen
Benutzer, die mit OpenClaw experimentieren, haben Probleme beim Einrichten von Subagenten, insbesondere beim Bearbeiten von JSON-Dateien.

Benutzer berichten, dass sie für akademische Projektunterstützung von Gemini Pro zu Claude Max gewechselt sind.
Ein Nutzer wechselte von Gemini Pro zu Claude Max, nachdem er Frustration mit der Leistung von Gemini bei praktischen Aufgaben erlebt hatte. Er berichtet, dass Claude sein akademisches Projekt erfolgreich überprüfte, Klärungsfragen stellte und vorschlug, gelernte Informationen in einer memory.md-Datei zu protokollieren.

Claude Code v2.1.152: /code-review --fix, Plugin disallowed-tools, MessageDisplay-Hook
Claude Code v2.1.152 führt /code-review --fix ein, um Vorschläge direkt im Arbeitsverzeichnis anzuwenden, /reload-skills, MessageDisplay-Hook und disallowed-tools für Plugins im Frontmatter. Außerdem werden langfristige Stilverschlechterungen, MCP-Deduplizierung und Cache-Berichte behoben.