Человеческий бенчмарк креативности: отделение конвергенции от дивергенции в оценке творческих способностей ИИ

Новый Human Creativity Benchmark (HCB) от Contra Labs решает ключевую проблему оценки творческих работ, созданных ИИ: у творческих задач нет эталонного ответа. Традиционные бенчмарки считают разногласия оценщиков шумом, который устраняется голосованием большинства или арбитражем. HCB вместо этого разделяет конвергенцию (согласие по общим лучшим практикам) и дивергенцию (истинные различия в эстетическом вкусе).
Ключевые выводы
- Конвергенция высока по проверяемым осям: соответствие промпту, удобство использования, техническая корректность (например, читаемость, вёрстка).
- Дивергенция преобладает по осям, связанным со вкусом: визуальная привлекательность, настроение, концептуальный риск.
- Настольные приложения и лендинги показывают наибольшую конвергенцию; видеореклама и бренд-активы остаются наиболее дивергентными.
- Ни одна текущая генеративная модель не является одновременно корректной (конвергентной) и управляемой (дивергентной по запросу).
- Коллапс мод определен как практическая проблема: модели сходятся к безопасным, усреднённым эстетикам при получении одного и того же брифа.
Методология
HCB определяет оси оценки в спектре от объективно проверяемых до изначально субъективных. Для каждой оси измеряется согласованность оценщиков. Конвергенция отражает общие стандарты, такие как визуальная иерархия, цветовой контраст и качество рендеринга. Дивергенция улавливает личный вкус — что важно для творческих процессов, где профессионалам нужно несколько направлений для исследования и итераций.
Последствия для ИИ-агентов
Для разработчиков, использующих ИИ-агенты для кодирования, этот бенчмарк подчёркивает, что творческие инструменты должны предлагать как надёжность (следование инструкциям), так и управляемость (адаптацию к личному вкусу). HCB предоставляет основу для оценки этих аспектов по отдельности, а не сглаживания дивергенции в единую оценку качества. Агенты, которые не поддерживают дифференцированный вывод, рискуют оказаться непригодными для настоящей творческой работы.
📖 Читать полный источник: HN AI Agents
👀 Смотрите также

NerfGuard: Классификатор, направляющий запросы кода на более дешевые модели, сокращая расходы в 3 раза
NerfGuard использует быстрый классификатор, направляющий запросы кодировочных агентов в самую дешевую модель с необходимой глубиной рассуждений, что позволяет получить в 3 раза больше использований за те же деньги. Включает оптимизацию токенов.

Engramx v3.4: MCP-сервер + граф знаний SQLite сокращает потребление токенов Claude Code на 89%
Engramx v3.4 перехватывает чтение файлов агентами Claude Code, возвращая структурные сводки вместо исходного содержимого. Бенчмарки показывают совокупное сокращение токенов на 89,1% в кодовой базе из 87 файлов.

VidLens MCP Server: Постоянная база знаний YouTube для Claude
VidLens — это бесплатный, открытый MCP-сервер, который индексирует контент YouTube локально с использованием семантических эмбеддингов, рассматривая видео как постоянную базу знаний, а не извлекая временные транскрипты. Он предоставляет 41 инструмент в 10 модулях для поиска, анализа и извлечения видеоконтента.

Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.
Автоматизированный конвейер протестировал 88 моделей GGUF на Mac Mini M4 с 16 ГБ оперативной памяти, определив 9 непригодных к использованию и 4 модели LFM2-8B-A1B MoE на границе Парето по скорости и качеству.