Le Référentiel de Créativité Humaine : Distinguer Convergence et Divergence dans l'Évaluation de la Créativité de l'IA

Le nouveau Human Creativity Benchmark (HCB) de Contra Labs s'attaque à un problème fondamental dans l'évaluation des œuvres créatives générées par l'IA : les tâches créatives n'ont pas de vérité absolue. Les benchmarks traditionnels traitent le désaccord des évaluateurs comme du bruit à résoudre par vote majoritaire ou arbitrage. Le HCB sépare plutôt la convergence (accord sur les bonnes pratiques partagées) de la divergence (différences réelles de goût esthétique).
Résultats clés
- La convergence est élevée sur les axes vérifiables : respect de la consigne, utilisabilité et exactitude technique (ex. lisibilité, disposition).
- La divergence domine sur les axes liés au goût : attrait visuel, ambiance, risque conceptuel.
- Les applications de bureau et les pages d'atterrissage présentent la plus forte convergence ; les vidéos publicitaires et les actifs de marque restent les plus divergents.
- Aucun modèle génératif actuel n'est à la fois fiable (convergent) et orientable (divergent sur demande).
- L'effondrement modal est identifié comme un problème pratique : les modèles convergent vers des esthétiques moyennes et sécurisées lorsqu'ils reçoivent le même brief.
Méthodologie
Le HCB définit les axes d'évaluation sur un spectre allant de l'objectivement vérifiable au subjectif inhérent. Pour chaque axe, l'accord des évaluateurs est mesuré. La convergence reflète des normes partagées comme la hiérarchie visuelle, le contraste des couleurs et la qualité du rendu. La divergence capture le goût personnel — essentiel pour les flux de travail créatifs où les professionnels ont besoin de multiples directions pour l'exploration et l'itération.
Implications pour les agents IA
Pour les développeurs utilisant des agents de codage IA, ce benchmark souligne que les outils créatifs doivent offrir à la fois fiabilité (suivi des instructions) et orientabilité (adaptation au goût personnel). Le HCB fournit un cadre pour évaluer ces dimensions séparément, plutôt que de lisser la divergence en un seul score de qualité. Les agents qui ne produisent pas de résultats différenciés risquent d'être inutilisables pour un travail créatif réel.
📖 Read the full source: HN AI Agents
👀 See Also

Présentation de Xrouter : Un routeur LLM hybride intelligent pour optimiser les coûts et les performances.
Découvrez Xrouter, une création open source qui intègre dynamiquement l'inférence locale avec le cloud, conçue pour réduire drastiquement les coûts de l'IA tout en améliorant l'efficacité.

LystBot : Un serveur MCP pour Claude afin de gérer des listes et des tâches
LystBot est une application de gestion de listes avec un serveur MCP natif qui permet à Claude d'interagir directement avec les listes de courses, les tâches à faire et les listes de bagages. Développée principalement avec Claude Code, elle comprend une application mobile Flutter, une API REST, une interface en ligne de commande et un serveur MCP Node.js open source.

Tableau de bord Claude Ops : Statut en direct et suivi des sous-agents pour Claude Code
Un tableau de bord local gratuit pour navigateur macOS qui suit l'état en direct des sessions Claude Code, l'outil en cours, les sous-agents générés, et envoie des notifications push OS lorsque une intervention est nécessaire.

Compétences Chrome : Enregistrez et réutilisez les invites IA comme des outils en un clic
La fonctionnalité Compétences de Google Chrome permet aux utilisateurs d'enregistrer des invites d'IA sous forme de flux de travail réutilisables qui s'exécutent en un seul clic sur n'importe quelle page web. Les Compétences sont accessibles en tapant la barre oblique (/) ou en cliquant sur le signe plus (+) dans Gemini dans Chrome.