Human Creativity Benchmark: как оценивают креативность ИИ

Новый Human Creativity Benchmark (HCB) от Contra Labs решает ключевую проблему оценки творческих работ, созданных ИИ: у творческих задач нет эталонного ответа. Традиционные бенчмарки считают разногласия оценщиков шумом, который устраняется голосованием большинства или арбитражем. HCB вместо этого разделяет конвергенцию (согласие по общим лучшим практикам) и дивергенцию (истинные различия в эстетическом вкусе).

Ключевые выводы

Конвергенция высока по проверяемым осям: соответствие промпту, удобство использования, техническая корректность (например, читаемость, вёрстка).
Дивергенция преобладает по осям, связанным со вкусом: визуальная привлекательность, настроение, концептуальный риск.
Настольные приложения и лендинги показывают наибольшую конвергенцию; видеореклама и бренд-активы остаются наиболее дивергентными.
Ни одна текущая генеративная модель не является одновременно корректной (конвергентной) и управляемой (дивергентной по запросу).
Коллапс мод определен как практическая проблема: модели сходятся к безопасным, усреднённым эстетикам при получении одного и того же брифа.

Методология

HCB определяет оси оценки в спектре от объективно проверяемых до изначально субъективных. Для каждой оси измеряется согласованность оценщиков. Конвергенция отражает общие стандарты, такие как визуальная иерархия, цветовой контраст и качество рендеринга. Дивергенция улавливает личный вкус — что важно для творческих процессов, где профессионалам нужно несколько направлений для исследования и итераций.

Последствия для ИИ-агентов

Для разработчиков, использующих ИИ-агенты для кодирования, этот бенчмарк подчёркивает, что творческие инструменты должны предлагать как надёжность (следование инструкциям), так и управляемость (адаптацию к личному вкусу). HCB предоставляет основу для оценки этих аспектов по отдельности, а не сглаживания дивергенции в единую оценку качества. Агенты, которые не поддерживают дифференцированный вывод, рискуют оказаться непригодными для настоящей творческой работы.

📖 Читать полный источник: HN AI Agents

Человеческий бенчмарк креативности: отделение конвергенции от дивергенции в оценке творческих способностей ИИ

Ключевые выводы

Методология

Последствия для ИИ-агентов

👀 Смотрите также

NerfGuard: Классификатор, направляющий запросы кода на более дешевые модели, сокращая расходы в 3 раза

Engramx v3.4: MCP-сервер + граф знаний SQLite сокращает потребление токенов Claude Code на 89%

VidLens MCP Server: Постоянная база знаний YouTube для Claude

Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.