Human Creativity Benchmark: Medindo Criatividade de IA

O novo Human Creativity Benchmark (HCB) da Contra Labs aborda um problema central na avaliação de trabalhos criativos gerados por IA: tarefas criativas não têm uma verdade absoluta. Benchmarks tradicionais tratam a discordância entre avaliadores como ruído a ser resolvido por votação majoritária ou arbitragem. O HCB, em vez disso, separa convergência (acordo sobre melhores práticas compartilháveis) de divergência (diferenças genuínas de gosto estético).

Principais Descobertas

A convergência é alta em eixos verificáveis: aderência ao prompt, usabilidade e correção técnica (ex.: legibilidade, layout).
A divergência domina em eixos orientados pelo gosto: apelo visual, clima, risco conceitual.
Páginas de Aplicativos para Desktop e Landing Pages apresentam a maior convergência; Anúncios em Vídeo e Ativos de Marca permanecem os mais divergentes.
Nenhum modelo generativo atual é confiavelmente correto (convergente) e orientável (divergente sob demanda).
O colapso de modo é identificado como um problema prático: modelos convergem para estéticas seguras e médias quando recebem o mesmo briefing.

Metodologia

O HCB define eixos de avaliação em um espectro que vai do objetivamente verificável ao inerentemente subjetivo. Para cada eixo, mede-se a concordância entre avaliadores. Convergência reflete padrões compartilhados como hierarquia visual, contraste de cores e qualidade de renderização. Divergência captura gosto pessoal—essencial para fluxos de trabalho criativos onde profissionais precisam de múltiplas direções para exploração e iteração.

Implicações para Agentes de IA

Para desenvolvedores que usam agentes de IA para codificação, este benchmark ressalta que ferramentas criativas devem oferecer tanto confiabilidade (seguir instruções) quanto orientabilidade (ajustar-se ao gosto pessoal). O HCB fornece uma estrutura para avaliar essas dimensões separadamente, em vez de suavizar a divergência em uma única pontuação de qualidade. Agentes que não suportam saída diferenciada correm o risco de serem inutilizáveis para trabalhos criativos reais.

📖 Leia a fonte completa: HN AI Agents

Benchmark de Criatividade Humana: Separando Convergência de Divergência na Avaliação Criativa de IA

Principais Descobertas

Metodologia

Implicações para Agentes de IA

👀 See Also

TeenyApp permite que Claude construa e implante sites full-stack a partir de um único link de chat

SpecLock: Servidor MCP para Imposição de Restrições de Codificação em IA

AI Team OS: Camada de Organização Autônoma para Claude Code

repo-mem: Servidor MCP de Código Aberto Adiciona Memória de Equipe Persistente ao Claude Code