Benchmark HCB : Distinguer Convergence et Divergence en Créativité IA

Le nouveau Human Creativity Benchmark (HCB) de Contra Labs s'attaque à un problème fondamental dans l'évaluation des œuvres créatives générées par l'IA : les tâches créatives n'ont pas de vérité absolue. Les benchmarks traditionnels traitent le désaccord des évaluateurs comme du bruit à résoudre par vote majoritaire ou arbitrage. Le HCB sépare plutôt la convergence (accord sur les bonnes pratiques partagées) de la divergence (différences réelles de goût esthétique).

Résultats clés

La convergence est élevée sur les axes vérifiables : respect de la consigne, utilisabilité et exactitude technique (ex. lisibilité, disposition).
La divergence domine sur les axes liés au goût : attrait visuel, ambiance, risque conceptuel.
Les applications de bureau et les pages d'atterrissage présentent la plus forte convergence ; les vidéos publicitaires et les actifs de marque restent les plus divergents.
Aucun modèle génératif actuel n'est à la fois fiable (convergent) et orientable (divergent sur demande).
L'effondrement modal est identifié comme un problème pratique : les modèles convergent vers des esthétiques moyennes et sécurisées lorsqu'ils reçoivent le même brief.

Méthodologie

Le HCB définit les axes d'évaluation sur un spectre allant de l'objectivement vérifiable au subjectif inhérent. Pour chaque axe, l'accord des évaluateurs est mesuré. La convergence reflète des normes partagées comme la hiérarchie visuelle, le contraste des couleurs et la qualité du rendu. La divergence capture le goût personnel — essentiel pour les flux de travail créatifs où les professionnels ont besoin de multiples directions pour l'exploration et l'itération.

Implications pour les agents IA

Pour les développeurs utilisant des agents de codage IA, ce benchmark souligne que les outils créatifs doivent offrir à la fois fiabilité (suivi des instructions) et orientabilité (adaptation au goût personnel). Le HCB fournit un cadre pour évaluer ces dimensions séparément, plutôt que de lisser la divergence en un seul score de qualité. Les agents qui ne produisent pas de résultats différenciés risquent d'être inutilisables pour un travail créatif réel.

📖 Read the full source: HN AI Agents

Le Référentiel de Créativité Humaine : Distinguer Convergence et Divergence dans l'Évaluation de la Créativité de l'IA

Résultats clés

Méthodologie

Implications pour les agents IA

👀 See Also

Utilisation du mode code MCP pour une recherche de mots-clés efficace avec Claude

Utiliser Claude Code pour relancer des projets personnels abandonnés : un guide pratique

js-notepad : Un Bloc-notes Scriptable avec Serveur MCP Intégré pour Claude Code

Correction de la perte de mémoire d'OpenClaw avec le plugin Mem0