Die Mona Lisa rappt dank Microsoft. Mit VASA-1 wird der Deepfake serviert

Microsoft stellte VASA-1 vorein neues leistungsfähiges Modell für künstliche Intelligenz (basierend auf dem VASA-Framework), beginnend mit a Einzelbild und ein AudioclipVon Erstellen Sie einen realistischen Avatar in Form eines Videos.

VASA-1 kann verwendet werden auch für EchtzeitanwendungenSo sehr, dass ein vom Modell generiertes Video mit einem Avatar beispielsweise für ein Videoanrufgespräch mit Teams, FaceTime oder anderen Live-Streaming-Technologien verwendet werden könnte. Laut Microsoft beträgt die Verzögerung nur 170 Millisekunden.

VASA-1 erfordert, dass der Benutzer ein Foto, vergleichbar mit einem Passfoto, aufnimmt und eine Audiospur aufnimmt, um ein realistisch animiertes Video zu erstellen wird lippensynchron mit der bereitgestellten Audiodatei abgespielt.

Das erklären Microsoft-Forscher frühere Modelle der künstlichen Intelligenz Sie spezialisierten sich hauptsächlich auf die Lippensynchronisation, während die Mimik, Emotionen, Kopfbewegungen und andere Details wurden übersehen.

VASA-1 soll all das bieten und somit in der Lage sein, realistisch animierte Gesichter zu erstellen. Dies demonstrieren die Forscher anhand einer Auswahl kurzer Videos auf der Projektwebsite.

Laut Microsoft kann VASA-1 Produzieren Sie Videos mit einer Auflösung von 512 x 512 Pixeln und 45 FPS in der Offline-Verarbeitung oder online mit 40 FPS nahezu in Echtzeit mit einer anfänglichen Verzögerung von nur 170 ms. Die Forscher verwendeten einen Desktop-PC mit einem NVIDIA GeForce RTX 4090 für ihre Demonstrationen.

Die Dauer des generierten Videos hängt von der eingefügten Audiospur ab, kann aber dank der geringen Latenz auch in Echtzeit für einen Livestream importiert werden. Anstelle ihres eigenen Gesichts sehen die Teilnehmer dann einen von VASA-1 generierten Avatar.

VASA-1 bietet dem Benutzer eine Reihe von Steuerelementen, um beispielsweise die Richtung der Augen, die Ausrichtung des Kopfes und die Stimmung des erstellten Avatars festzulegen oder der Abstand des Kopfes von der virtuellen Kamera. VASA-1 kann auch Erstellen Sie animierte Charaktere oder erwecken Sie Charaktere wie die Mona Lisa zum Leben, obwohl das Modell nicht mit geeigneten Daten trainiert wurde. Auch andere Sprachen als Englisch können mit Lippensynchronisation animiert werden.

Darauf weisen Microsoft-Forscher hinObwohl das KI-Modell nicht geschaffen wurde, um andere Menschen zu täuschen, könnte es durchaus für diesen Zweck verwendet werden, beispielsweise indem man eine andere Person anhand eines Fotos nachahmt. Mit Ausnahme der Mona Lisa wurden in den Demonstrationsvideos von Microsoft ausschließlich KI-generierte Bilder mit StyleGAN2 und DALL·E 3 verwendet.

VASA-1 weist derzeit Einschränkungen bei der Videogenerierung auf da es notwendig ist, Teile des Rumpfes ausgehend vom Hals zu animieren. Darüber hinaus kann es sein Probleme mit Ihren Haaren oder Ihrer Kleidung und manchmal werden Texturen möglicherweise falsch generiert.

Tags: Die Mona Lisa rappt dank Microsoft Mit VASA1 wird der Deepfake serviert

Related posts