AI 창의성 평가: 수렴과 발산 분리 벤치마크 HCB

Contra Labs의 새로운 인간 창의성 벤치마크(HCB)는 AI 생성 창의적 작업을 평가하는 핵심 문제를 해결합니다. 창의적 작업에는 절대적 기준이 없습니다. 기존 벤치마크는 평가자 간의 의견 불일치를 잡음으로 간주하여 다수결 투표나 조정을 통해 해결합니다. 반면 HCB는 수렴(공유 가능한 모범 사례에 대한 합의)과 발산(미적 취향의 진정한 차이)을 분리합니다.

주요 발견

수렴은 검증 가능한 축(프롬프트 준수, 사용성, 기술적 정확성(예: 가독성, 레이아웃))에서 높습니다.
발산은 취향 중심의 축(시각적 매력, 분위기, 개념적 위험)에서 지배적입니다.
데스크톱 앱과 랜딩 페이지는 가장 높은 수렴을 보이고, 광고 동영상과 브랜드 자산은 가장 발산적입니다.
현재 어떤 생성형 모델도 신뢰할 수 있을 정도로 정확(수렴)하면서도 조종 가능(요청 시 발산)하지 않습니다.
모드 붕괴는 실질적인 문제로 확인되었습니다. 동일한 브리핑을 받았을 때 모델이 안전하고 평균적인 미학에 수렴하는 현상입니다.

방법론

HCB는 평가 축을 객관적으로 검증 가능한 것에서부터 본질적으로 주관적인 것까지의 스펙트럼으로 정의합니다. 각 축에 대해 평가자 간 일치도를 측정합니다. 수렴은 시각적 계층, 색상 대비, 렌더링 품질과 같은 공유된 기준을 반영합니다. 발산은 개인적 취향을 포착하며, 전문가가 탐색과 반복을 위해 여러 방향이 필요한 창의적 워크플로우에 필수적입니다.

AI 에이전트에 대한 시사점

AI 코딩 에이전트를 사용하는 개발자의 경우, 이 벤치마크는 창의적 도구가 신뢰성(지침 따르기)과 조종 가능성(개인 취향에 맞게 조정)을 모두 제공해야 함을 강조합니다. HCB는 이러한 차원을 단일 품질 점수로 평탄화하지 않고 별도로 평가할 수 있는 프레임워크를 제공합니다. 차별화된 출력을 지원하지 않는 에이전트는 실제 창의적 작업에 사용할 수 없을 위험이 있습니다.

📖 Read the full source: HN AI Agents

인간 창의성 벤치마크: AI 창의성 평가에서 수렴과 발산의 분리

주요 발견

방법론

AI 에이전트에 대한 시사점

👀 See Also

개발자가 AI 에이전트 정착, 평판 및 소액 결제를 위한 10개 이상의 MCP 서버를 공유합니다

클로드-ETA 플러그인, 클로드 코드에 작업 타이밍 및 수정 루프 감지 기능 추가

Dev-Card: Git 기록에서 개발자 신분증을 생성하는 Claude 코드 스킬

Spec27: AI 에이전트를 위한 스펙 기반 검증 – 내부 접근 없이 API 레벨 테스트