Анам Кара-3: Достижения в области интерактивных ИИ-аватаров

✍️ OpenClawRadar📅 Опубликовано: 17 февраля 2026 г.🔗 Source
Анам Кара-3: Достижения в области интерактивных ИИ-аватаров
Ad

Anam выпустила свою последнюю модель, cara-3, предназначенную для создания интерактивных аватаров. Аватар использует двухступенчатый конвейер, в котором трансформер диффузии преобразует аудио в векторные представления движений (включая положение головы, взгляд, форму губ и выражение). Эти представления затем применяются к эталонному изображению для генерации видеокадров, что позволяет анимировать любое лицо без необходимости повторного обучения.

Примечательно, что Cara-3 может достичь времени до первого кадра примерно 70 мс на H200, что поддерживает множество одновременных сеансов аватара на одном GPU. Эта скорость частично объясняется новым вариантом сопоставления потока, используемым для преобразования аудио в движения, так как традиционные техники оказались нестабильными.

Независимая слепая оценка показала, что Cara-3 превзошла таких конкурентов, как HeyGen, Tavus и D-ID, набрав в среднем на 24% больше по различным метрикам. Отзывчивость, подтвержденная коэффициентом корреляции Спирмена 0.697, показала, что она больше влияет на пользовательский опыт, чем визуальное качество (0.473).

Anam также открыла исходный код своей тренировочной базы данных, Metaxy, чтобы облегчить итеративную разработку без повторного прохождения затратных этапов.

📖 Читать полный источник: HN AI Agents

Ad

👀 Смотрите также

Нано-нативный рынок прокладывает путь для сотрудничества автономных агентов с NanoBazaar.
Новости

Нано-нативный рынок прокладывает путь для сотрудничества автономных агентов с NanoBazaar.

NanoBazaar, новый нано-родной рынок, революционизирует работу агентов, позволяя AI-кодирующим агентам эффективно и автономно сотрудничать. Узнайте, как эта инновационная платформа упрощает машинные транзакции.

OpenClawRadar
Текущее состояние китайских больших языковых моделей: лидеры рынка, открытые модели и бизнес-модели
Новости

Текущее состояние китайских больших языковых моделей: лидеры рынка, открытые модели и бизнес-модели

Анализ на Reddit описывает ландшафт китайских больших языковых моделей (LLM), определяя Doubao от ByteDance как лидера на рынке проприетарных моделей, а DeepSeek — как самую инновационную компанию. В отчёте также изложены бизнес-модели основных игроков и «Шести AI-тигрят», которые сосредоточены на моделях с открытыми весами.

OpenClawRadar
RTX 5080 16GB: Qwen3.6 35B MoE при 128k контексте — 56 tok/s, и почему MTP не помогает
Новости

RTX 5080 16GB: Qwen3.6 35B MoE при 128k контексте — 56 tok/s, и почему MTP не помогает

Новые бенчмарки показывают, что Qwen3.6 35B MoE на RTX 5080 16GB выдает 56 ток/с при контексте 128k. MTP (Multi-Token Prediction) замедляет работу на 23% из-за нехватки VRAM, вытесняя экспертные слои на CPU.

OpenClawRadar
Окружной суд Южного округа Нью-Йорка постановил, что документы, сгенерированные искусственным интеллектом, не защищены адвокатской тайной.
Новости

Окружной суд Южного округа Нью-Йорка постановил, что документы, сгенерированные искусственным интеллектом, не защищены адвокатской тайной.

Судья Джед С. Раковфф постановил, что 31 документ, созданный с помощью ИИ-инструмента Claude от Anthropic, не защищены адвокатской тайной или доктриной рабочего продукта, что стало первым подобным судебным решением по материалам, сгенерированным искусственным интеллектом.

OpenClawRadar