아남 카라-3: 인터랙티브 AI 아바타의 발전

아남은 인터랙티브 아바타를 생성하도록 설계된 최신 모델 카라-3을 출시했습니다. 이 아바타는 확산 트랜스포머가 오디오를 모션 임베딩(머리 위치, 시선, 입 모양, 표정 포함)으로 변환하는 2단계 파이프라인을 활용합니다. 이러한 임베딩은 참조 이미지에 적용되어 비디오 프레임을 생성하며, 재학습 없이 어떤 얼굴이든 애니메이션화할 수 있습니다.
특히, 카라-3은 H200에서 약 70ms의 첫 프레임 시간을 달성할 수 있어 단일 GPU에서 많은 동시 아바타 세션을 지원합니다. 이 속도는 부분적으로 오디오-모션 변환에 사용된 새로운 플로우 매칭 변형 덕분이며, 기존 기술은 불안정한 것으로 입증되었습니다.
독립적인 블라인드 평가에 따르면, 카라-3은 HeyGen, Tavus, D-ID와 같은 경쟁사보다 성능이 우수했으며, 다양한 지표에서 평균 24% 더 높은 점수를 기록했습니다. 스피어만 상관 계수 0.697로 입증된 반응성은 시각적 품질(0.473)보다 사용자 경험에 더 큰 영향을 미치는 것으로 나타났습니다.
아남은 또한 비용이 많이 드는 단계를 다시 거치지 않고 반복적 개발을 용이하게 하기 위해 훈련 데이터 파이프라인 백본인 메타크시를 오픈소스화했습니다.
📖 전체 출처 읽기: HN AI Agents
👀 See Also

GPT 5.4 작업 완료 문제 및 해결 방법
사용자들은 GPT 5.4가 작업을 조기에 중단하고 잘못된 진행 상황 업데이트를 제공한다고 보고합니다. 해결 방법으로는 하트비트 시스템이나 cron 작업을 사용하는 것이 있지만, 이는 토큰 사용량과 메모리 문제를 증가시킵니다.

Google, 에이전트 결제 프로토콜(AP2)을 FIDO 얼라이언스에 기부하고 '인간 미존재' 결제 기능을 포함한 v0.2 출시
Google은 Agent Payments Protocol (AP2)을 FIDO Alliance에 기부하고, 자율적 'Human Not Present' 결제를 지원하는 v0.2와 Mastercard와 공동 개발한 새로운 Verifiable Intent 표준을 발표했습니다.

매니페스트, GitHub 코파일럿을 네 번째 AI 공급자로 오픈클라우 라우팅에 추가
Manifest는 이제 GitHub Copilot 구독을 통해 OpenClaw 요청을 라우팅하는 것을 지원하며, Anthropic, OpenAI, Minimax와 함께 사용 가능한 공급자로 합류했습니다. 이를 통해 개발자는 개발용으로 구축된 모델을 통해 기존 Copilot 플랜을 코드 작업에 사용할 수 있습니다.

OpenClaw 창립자 피터 스타인버거, 레이더에 포착: YC 인터뷰 인사이트
OpenClaw의 창립자 피터 스타인버거가 YC의 주목을 받으며, AI 코딩 에이전트의 미래에 대한 논의를 촉발시켰습니다. 자동화와 AI 에이전트 통합의 방향성을 바꿀 것으로 기대되는 이 중요한 대화의 하이라이트를 살펴보세요.