Der Human Creativity Benchmark: Trennung von Konvergenz und Divergenz in der KI-Kreativitätsbewertung

Der neue Human Creativity Benchmark (HCB) von Contra Labs befasst sich mit einem Kernproblem bei der Bewertung KI-generierter kreativer Arbeit: Kreative Aufgaben haben keine objektive Wahrheit. Traditionelle Benchmarks betrachten Uneinigkeit der Bewerter als Rauschen, das durch Mehrheitsentscheidungen oder Schiedsverfahren behoben werden muss. Der HCB trennt stattdessen Konvergenz (Übereinstimmung bei teilbaren Best Practices) von Divergenz (echte Unterschiede im ästhetischen Geschmack).
Wichtigste Erkenntnisse
- Konvergenz ist hoch bei überprüfbaren Achsen: Einhaltung der Aufgabenstellung, Benutzerfreundlichkeit und technische Korrektheit (z. B. Lesbarkeit, Layout).
- Divergenz dominiert bei geschmacksgesteuerten Achsen: Visuelle Anziehungskraft, Stimmung, konzeptionelles Risiko.
- Desktop-Apps und Landingpages zeigen die höchste Konvergenz; Videoanzeigen und Markenassets bleiben am divergentesten.
- Kein aktuelles generatives Modell ist zuverlässig sowohl korrekt (konvergent) als auch steuerbar (divergent auf Anfrage).
- Mode Collapse wird als praktisches Problem identifiziert: Modelle konvergieren auf sichere, durchschnittliche Ästhetik, wenn sie die gleiche Aufgabenstellung erhalten.
Methodik
Der HCB definiert Bewertungsachsen auf einem Spektrum von objektiv überprüfbar bis inhärent subjektiv. Für jede Achse wird die Übereinstimmung der Bewerter gemessen. Konvergenz spiegelt gemeinsame Standards wie visuelle Hierarchie, Farbkontrast und Darstellungsqualität wider. Divergenz erfasst persönlichen Geschmack – essentiell für kreative Arbeitsabläufe, bei denen Fachleute mehrere Richtungen für Erkundung und Iteration benötigen.
Auswirkungen auf KI-Agenten
Für Entwickler, die KI-Codierungsagenten verwenden, unterstreicht dieser Benchmark, dass kreative Tools sowohl Zuverlässigkeit (Befolgen von Anweisungen) als auch Steuerbarkeit (Anpassung an den persönlichen Geschmack) bieten müssen. Der HCB bietet ein Framework, um diese Dimensionen getrennt zu bewerten, anstatt Divergenz in eine einzige Qualitätsbewertung einzuebnen. Agenten, die differenzierte Ausgaben nicht unterstützen, riskieren, für echte kreative Arbeit unbrauchbar zu sein.
📖 Lesen Sie die vollständige Quelle: HN AI Agents
👀 Siehe auch

Ein Muster zum Ausführen von Claude Code in unbeaufsichtigten Nachtsitzungen ohne Kursabweichung
Ein Drei-Komponenten-Framework – Chain Runner, Supervisor und ein einziger Übergabevertrag – löst das Problem der Drift in Feedback-Schleifen bei mehrstündigen autonomen Claude Code-Sitzungen.

NotebookLM MCP Strukturiert: Kostenloser Server verbindet Claude mit NotebookLM durch automatische Prompt-Strukturierung
Ein kostenloser MCP-Server namens NotebookLM MCP Structured verbindet Claude Desktop mit NotebookLM-Notebooks durch automatische Prompt-Strukturierung. Der Server strukturiert Abfragen basierend auf ihrem Typ (Vergleich, Liste, Analyse, Erklärung oder Extraktion) und fügt Vollständigkeitsprüfungen sowie Treuebeschränkungen hinzu.

Lokale Deep-Research-Tools: GPT Researcher und Local Deep Research vorn, STORM- und LangChain-Projekte stagnieren
Eine Reddit-Umfrage zu lokalen Deep-Research-Projekten vom Mai 2026 zeigt, dass GPT Researcher und LearningCircuits Local Deep Research am aktivsten sind; STORM und LangChains Open Deep Research wurden aufgegeben oder befinden sich im Halbschlaf.

Claude Banana: Ein Claude Code-Plugin für bildgenerierung mit Design-System-Bewusstsein
Claude Banana ist ein Claude Code-Plugin zur Bildgenerierung mit der Google Gemini API. Es erstellt kontextbewusste Prompts, indem es Tailwind-Konfigurationen, CSS-Variablen, Design-Tokens und bestehende Assets liest, um die visuellen Stile eines Projekts zu verstehen.