Der Human Creativity Benchmark: Trennung von Konvergenz und Divergenz in der KI-Kreativitätsbewertung

Der neue Human Creativity Benchmark (HCB) von Contra Labs befasst sich mit einem Kernproblem bei der Bewertung KI-generierter kreativer Arbeit: Kreative Aufgaben haben keine objektive Wahrheit. Traditionelle Benchmarks betrachten Uneinigkeit der Bewerter als Rauschen, das durch Mehrheitsentscheidungen oder Schiedsverfahren behoben werden muss. Der HCB trennt stattdessen Konvergenz (Übereinstimmung bei teilbaren Best Practices) von Divergenz (echte Unterschiede im ästhetischen Geschmack).
Wichtigste Erkenntnisse
- Konvergenz ist hoch bei überprüfbaren Achsen: Einhaltung der Aufgabenstellung, Benutzerfreundlichkeit und technische Korrektheit (z. B. Lesbarkeit, Layout).
- Divergenz dominiert bei geschmacksgesteuerten Achsen: Visuelle Anziehungskraft, Stimmung, konzeptionelles Risiko.
- Desktop-Apps und Landingpages zeigen die höchste Konvergenz; Videoanzeigen und Markenassets bleiben am divergentesten.
- Kein aktuelles generatives Modell ist zuverlässig sowohl korrekt (konvergent) als auch steuerbar (divergent auf Anfrage).
- Mode Collapse wird als praktisches Problem identifiziert: Modelle konvergieren auf sichere, durchschnittliche Ästhetik, wenn sie die gleiche Aufgabenstellung erhalten.
Methodik
Der HCB definiert Bewertungsachsen auf einem Spektrum von objektiv überprüfbar bis inhärent subjektiv. Für jede Achse wird die Übereinstimmung der Bewerter gemessen. Konvergenz spiegelt gemeinsame Standards wie visuelle Hierarchie, Farbkontrast und Darstellungsqualität wider. Divergenz erfasst persönlichen Geschmack – essentiell für kreative Arbeitsabläufe, bei denen Fachleute mehrere Richtungen für Erkundung und Iteration benötigen.
Auswirkungen auf KI-Agenten
Für Entwickler, die KI-Codierungsagenten verwenden, unterstreicht dieser Benchmark, dass kreative Tools sowohl Zuverlässigkeit (Befolgen von Anweisungen) als auch Steuerbarkeit (Anpassung an den persönlichen Geschmack) bieten müssen. Der HCB bietet ein Framework, um diese Dimensionen getrennt zu bewerten, anstatt Divergenz in eine einzige Qualitätsbewertung einzuebnen. Agenten, die differenzierte Ausgaben nicht unterstützen, riskieren, für echte kreative Arbeit unbrauchbar zu sein.
📖 Lesen Sie die vollständige Quelle: HN AI Agents
👀 Siehe auch

Kreuzberg v4.7.0 fügt Code-Intelligenz für 248 Sprachen und verbesserte Markdown-Extraktion hinzu.
Kreuzberg v4.7.0, eine Rust-basierte Dokumentenintelligenz-Bibliothek, unterstützt nun die Code-Extraktion für 248 Formate über tree-sitter und hat die Markdown-Qualität mit Structural F1-Werten von über 80 % bei 23 Formaten erheblich verbessert.

ClawCodex /Beratungsmodus: Billigen Arbeiter mit teurem Prüfer kombinieren, um Kosten zu senken ohne Qualitätsverlust
Der Open-Source-Python-Coding-Agent ClawCodex bietet einen /advisor-Modus, der ein günstiges Worker-Modell (z. B. Haiku) mit einem teuren Reviewer (z. B. Opus) an Entscheidungspunkten kombiniert und so die Kosten mehrfach senkt, ohne die Architekturqualität zu beeinträchtigen.

Video Editor entwickelt kostenloses Transkriptionstool Treelo mit Claude Code
Ein Videoeditor hat Treelo erstellt, ein kostenloses Web-Tool, das Audio-/Videodateien in bearbeitbare Zeitstempelblöcke transkribiert, mit Untertitel-Voreinstellungen und Export in SRT-, VTT-, ASS- und WAV-Formaten. Das Tool wurde durch iterative Gespräche mit Claude Code entwickelt.

Anamnese: Eine portable Gedächtnisschicht für Claude und ChatGPT via MCP
Anamnese ist ein kostenloser MCP-Server, der Erinnerungen, Aufgaben, Ziele und Notizen über Claude und ChatGPT hinweg speichert und nur relevante Kontexte in Gespräche einbezieht, während Nutzer ihre Daten einsehen, bearbeiten und exportieren können.