Anam Cara-3: Avatares Interativos com Pipeline de Áudio-Vídeo

A Anam lançou seu modelo mais recente, cara-3, projetado para criar avatares interativos. O avatar utiliza um pipeline de dois estágios onde um transformador de difusão converte áudio em embeddings de movimento (incluindo posição da cabeça, direção do olhar, formato dos lábios e expressão). Esses embeddings são então aplicados a uma imagem de referência para gerar quadros de vídeo, permitindo a animação de qualquer rosto sem necessidade de retreinamento.

Vale destacar que o Cara-3 pode alcançar um tempo para o primeiro quadro de aproximadamente 70ms em um H200, o que suporta muitas sessões simultâneas de avatar em uma única GPU. Essa velocidade se deve em parte à nova variante de correspondência de fluxo usada para transformação de áudio em movimento, já que técnicas convencionais se mostraram instáveis.

Uma avaliação cega independente mostrou que o Cara-3 superou concorrentes como HeyGen, Tavus e D-ID, marcando 24% mais alto em média em várias métricas. A responsividade, evidenciada por um coeficiente de correlação de Spearman de 0,697, demonstra impactar mais a experiência do usuário do que a qualidade visual (0,473).

A Anam também disponibilizou como código aberto a base de seu pipeline de dados de treinamento, Metaxy, para facilitar o desenvolvimento iterativo sem repetir etapas custosas.

📖 Leia a fonte completa: HN AI Agents

Anam Cara-3: Avanços em Avatares de IA Interativos

👀 See Also

Claude-Code v2.1.92 adiciona assistente de configuração do Bedrock, detalhamento de custos e várias correções

Título do artigo: Visão Geral da IA do Google Rotula Falsamente Violinista Canadense como Criminoso Sexual, Processo Protocolado

Sistema de Prompts de Código Claude v2.1.51/52: Novos Prompts, Atualizações do SDK e Recursos de GA

Em vez de proibir a IA, um professor redigiu um contrato de sala de aula com os alunos