Человеческий бенчмарк креативности: отделение конвергенции от дивергенции в оценке творческих способностей ИИ

✍️ OpenClawRadar📅 Опубликовано: 1 мая 2026 г.🔗 Source
Человеческий бенчмарк креативности: отделение конвергенции от дивергенции в оценке творческих способностей ИИ
Ad

Новый Human Creativity Benchmark (HCB) от Contra Labs решает ключевую проблему оценки творческих работ, созданных ИИ: у творческих задач нет эталонного ответа. Традиционные бенчмарки считают разногласия оценщиков шумом, который устраняется голосованием большинства или арбитражем. HCB вместо этого разделяет конвергенцию (согласие по общим лучшим практикам) и дивергенцию (истинные различия в эстетическом вкусе).

Ключевые выводы

  • Конвергенция высока по проверяемым осям: соответствие промпту, удобство использования, техническая корректность (например, читаемость, вёрстка).
  • Дивергенция преобладает по осям, связанным со вкусом: визуальная привлекательность, настроение, концептуальный риск.
  • Настольные приложения и лендинги показывают наибольшую конвергенцию; видеореклама и бренд-активы остаются наиболее дивергентными.
  • Ни одна текущая генеративная модель не является одновременно корректной (конвергентной) и управляемой (дивергентной по запросу).
  • Коллапс мод определен как практическая проблема: модели сходятся к безопасным, усреднённым эстетикам при получении одного и того же брифа.
Ad

Методология

HCB определяет оси оценки в спектре от объективно проверяемых до изначально субъективных. Для каждой оси измеряется согласованность оценщиков. Конвергенция отражает общие стандарты, такие как визуальная иерархия, цветовой контраст и качество рендеринга. Дивергенция улавливает личный вкус — что важно для творческих процессов, где профессионалам нужно несколько направлений для исследования и итераций.

Последствия для ИИ-агентов

Для разработчиков, использующих ИИ-агенты для кодирования, этот бенчмарк подчёркивает, что творческие инструменты должны предлагать как надёжность (следование инструкциям), так и управляемость (адаптацию к личному вкусу). HCB предоставляет основу для оценки этих аспектов по отдельности, а не сглаживания дивергенции в единую оценку качества. Агенты, которые не поддерживают дифференцированный вывод, рискуют оказаться непригодными для настоящей творческой работы.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

NerfGuard: Классификатор, направляющий запросы кода на более дешевые модели, сокращая расходы в 3 раза
Инструменты

NerfGuard: Классификатор, направляющий запросы кода на более дешевые модели, сокращая расходы в 3 раза

NerfGuard использует быстрый классификатор, направляющий запросы кодировочных агентов в самую дешевую модель с необходимой глубиной рассуждений, что позволяет получить в 3 раза больше использований за те же деньги. Включает оптимизацию токенов.

OpenClawRadar
Engramx v3.4: MCP-сервер + граф знаний SQLite сокращает потребление токенов Claude Code на 89%
Инструменты

Engramx v3.4: MCP-сервер + граф знаний SQLite сокращает потребление токенов Claude Code на 89%

Engramx v3.4 перехватывает чтение файлов агентами Claude Code, возвращая структурные сводки вместо исходного содержимого. Бенчмарки показывают совокупное сокращение токенов на 89,1% в кодовой базе из 87 файлов.

OpenClawRadar
VidLens MCP Server: Постоянная база знаний YouTube для Claude
Инструменты

VidLens MCP Server: Постоянная база знаний YouTube для Claude

VidLens — это бесплатный, открытый MCP-сервер, который индексирует контент YouTube локально с использованием семантических эмбеддингов, рассматривая видео как постоянную базу знаний, а не извлекая временные транскрипты. Он предоставляет 41 инструмент в 10 модулях для поиска, анализа и извлечения видеоконтента.

OpenClawRadar
Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.
Инструменты

Тестирование 88 малых моделей GGUF на Mac Mini M4 с 16 ГБ памяти.

Автоматизированный конвейер протестировал 88 моделей GGUF на Mac Mini M4 с 16 ГБ оперативной памяти, определив 9 непригодных к использованию и 4 модели LFM2-8B-A1B MoE на границе Парето по скорости и качеству.

OpenClawRadar