Anam Cara-3: Fortschritte in interaktiven KI-Avataren

✍️ OpenClawRadar📅 Veröffentlicht: 17. Februar 2026🔗 Source
Anam Cara-3: Fortschritte in interaktiven KI-Avataren
Ad

Anam hat sein neuestes Modell, cara-3, veröffentlicht, das zur Erstellung interaktiver Avatare entwickelt wurde. Der Avatar nutzt eine zweistufige Pipeline, bei der ein Diffusions-Transformator Audio in Bewegungs-Embeddings umwandelt (einschließlich Kopfposition, Augenblick, Lippenform und Ausdruck). Diese Embeddings werden dann auf ein Referenzbild angewendet, um Video-Frames zu generieren, sodass jede Gesichtsanimation ohne erneutes Training möglich ist.

Besonders bemerkenswert ist, dass Cara-3 eine Zeit bis zum ersten Frame von etwa 70 ms auf einem H200 erreichen kann, der viele gleichzeitige Avatar-Sitzungen auf einer einzigen GPU unterstützt. Diese Geschwindigkeit ist teilweise auf die neuartige Flussanpassungsvariante zurückzuführen, die für die Audio-zu-Bewegung-Transformation verwendet wird, da herkömmliche Techniken sich als instabil erwiesen.

Eine unabhängige Blindbewertung zeigte, dass Cara-3 Konkurrenten wie HeyGen, Tavus und D-ID übertroffen hat, mit einem durchschnittlichen Vorsprung von 24 % bei verschiedenen Metriken. Die Reaktionsfähigkeit, belegt durch einen Spearman-Korrelationskoeffizienten von 0,697, hat größeren Einfluss auf die Benutzererfahrung als die visuelle Qualität (0,473).

Anam hat auch ihre Trainingsdatenpipeline, Metaxy, als Open Source verfügbar gemacht, um die iterative Entwicklung zu erleichtern, ohne kostspielige Schritte wiederholen zu müssen.

Ad

📖 Read the full source: HN AI Agents

Ad

👀 Siehe auch

Autonomas 18-monatige Neuentwicklung des Codebase: Lehren über Tests, technische Schulden und Server Actions
Nachrichten

Autonomas 18-monatige Neuentwicklung des Codebase: Lehren über Tests, technische Schulden und Server Actions

Autonoma warf 1,5 Jahre Code weg, nachdem das Team von 2 auf 14 Ingenieure angewachsen war. Als Hauptgründe für die Neuerstellung nannte das Unternehmen fehlende Tests, nicht-strikten TypeScript-Einsatz und Einschränkungen von Server Actions.

OpenClawRadar
🦀
Nachrichten

Googles DeepMind KI-Zeiger: Die Maus für Gemini-Interaktionen neu gedacht

Google DeepMind stellt einen KI-gesteuerten Mauszeiger vor, der Gemini nutzt, um Kontext zu verstehen, und so Befehle wie das Zeigen auf ein Bild mit der Aufforderung „Zeig mir den Weg“ ermöglicht. Integriert in Chrome und Googlebook.

OpenClawRadar
Claude AI stellt Cowork-Plugin-Updates mit Unternehmensanpassungen und neuen Konnektoren vor.
Nachrichten

Claude AI stellt Cowork-Plugin-Updates mit Unternehmensanpassungen und neuen Konnektoren vor.

Claude AI hat Cowork-Plugin-Updates veröffentlicht, die es Unternehmensadministratoren ermöglichen, private Plugin-Marktplätze zu erstellen und Konnektoren für Google Workspace, Docusign, Apollo und andere Tools hinzuzufügen. Eine neue Forschungsvorschau ermöglicht es Claude, in Excel und PowerPoint zu arbeiten, um End-to-End-Analysen und Präsentationserstellung durchzuführen.

OpenClawRadar
Oracle erwägt 20.000 bis 30.000 Stellenstreichungen und den Verkauf von Cerner, um die KI-Rechenzentrumserweiterung zu finanzieren.
Nachrichten

Oracle erwägt 20.000 bis 30.000 Stellenstreichungen und den Verkauf von Cerner, um die KI-Rechenzentrumserweiterung zu finanzieren.

Oracle erwägt, 20.000 bis 30.000 Stellen zu streichen und seine Cerner-Gesundheitssoftware-Einheit zu verkaufen, um 8 bis 10 Milliarden Dollar Cashflow für die Erweiterung von KI-Rechenzentren freizusetzen, da US-Banken sich aus der Finanzierung des 156-Milliarden-Dollar-Infrastrukturausbaus des Unternehmens zurückziehen.

OpenClawRadar