アナム・カラ-3:インタラクティブAIアバターの進歩

Anamは、インタラクティブなアバターを作成するために設計された最新モデル「cara-3」をリリースしました。このアバターは、拡散トランスフォーマーがオーディオをモーション埋め込み(頭の位置、視線、唇の形状、表情を含む)に変換する2段階のパイプラインを採用しています。これらの埋め込みは、参照画像に適用されてビデオフレームを生成し、再学習の必要なく任意の顔をアニメーション化することができます。
特に、Cara-3はH200上で約70msの初回フレームまでの時間を達成でき、単一のGPUで多くの同時アバターセッションをサポートします。この速度は、従来の技術が不安定であることが判明したため、オーディオからモーションへの変換に使用される新しいフローマッチングの変種によるものです。
独立したブラインド評価では、Cara-3がHeyGen、Tavus、D-IDなどの競合製品を上回り、さまざまな指標で平均24%高いスコアを獲得しました。Spearman相関係数0.697で示される応答性は、視覚品質(0.473)よりもユーザーエクスペリエンスに大きな影響を与えることが示されています。
Anamはまた、高コストなステップを再実行することなく反復的な開発を促進するために、トレーニングデータパイプラインのバックボーンであるMetaxyをオープンソース化しました。
📖 詳細なソースを読む: HN AI Agents
👀 See Also

アンソロピック、6月からOpenClaw経由でのClaudeサブスクリプション利用を許可
OpenClaw DevのTwitterアカウントが発表したところによると、Anthropicは6月からOpenClawを通じたClaudeのサブスクリプション利用を許可する予定です。

クロードのミニマックス論争とアンソロピックの市場ギャップ分析
Claudeは、MiniMaxが数百万のAPIコールに対して支払いを行うことで合法的にトレーニングデータを取得したと主張し、Anthropicの製品ラインナップには安価で持続的なオーケストレーター向けのギャップがあると指摘しています。

XiaomiがMiMo-V2.5-Proをオープンソース化、コーディングベンチマークでClaude Opus 4.6に迫る
Xiaomiは、オープンソースのコーディングモデルMiMo-V2.5-Proをリリースしました。このモデルは、大学のコンパイラプロジェクトで233/233のスコアを獲得し、ビデオエディタを自律的に構築し、SWE-BenchとTerminal-BenchでClaude Opus 4.6の上位1%以内にランクインしています。

鳥のスキルリポジトリが削除されました — X/Twitterアクセスを今すぐバックアップしてください
人気のbirdスキル(@steipete作)がGitHubから削除されました。ユーザーはすぐにインストールをバックアップする必要があります。