Microsoft stellt Vasa-1 vor, die künstliche Intelligenz, die ausgehend von einem Bild (oder einem Gemälde) Videos erstellt: den verstörenden Rap der Mona Lisa

Microsoft stellt Vasa-1 vor, die künstliche Intelligenz, die ausgehend von einem Bild (oder einem Gemälde) Videos erstellt: den verstörenden Rap der Mona Lisa
Descriptive text here

Forschungslabore von Microsoft haben eine künstliche Intelligenz enthüllt, die Videos mit realistischem Ton erstellt. Aus Sicherheitsgründen ist es jedoch nicht zugänglich. Das Deep-Fake-Risiko steigt

Als letzten Februar OpenAI enthüllten der Welt Soras Fähigkeiten und waren wieder einmal erstaunt (aber auch besorgt) über die beeindruckenden Fähigkeiten, die ihre Modelle erreichen können. War es damals die Filmwelt, die sich über Soras Potenzial Sorgen machte, so ist es heute die Welt, die Staunen und Angst hervorruft Vasa-1. Es wurde von den Laboren der Asien-Abteilung von vorgestellt Microsoft-Forschung. Die Unterschiede zum Service des von Sam Altman geleiteten Unternehmens sind vielfältig. Wenn Sora ein Video von Grund auf mit einer Textangabe, also einer Eingabeaufforderung, erstellen kann, Vasa-1 kann aus einem Bild, beispielsweise einem Foto, ein Video erstellen. Oder ein Gemälde.

Es ruft ein Lächeln hervor, aber das Beispiel eines Videos, das schnell im Internet kursierte, hat etwas Beunruhigendes „Seele“ Leonardo da Vincis Mona Lisa. Wir sehen, wie sie zum Leben erwacht, als sie den viralen Rap der Schauspielerin Anne Hathaway aus dem Jahr 2011 singt:Paparazzi», mit extremen und – ja – ausgesprochen realistischen Ausdrücken.

Das Modell kann auch die Stimme einer Person „klonen“., wobei sogar einige Sekunden der Aufnahme der Originalstimme als Quelle verwendet werden. Auf der offiziellen Website erklärt Microsoft ausführlich, was das Vasa-Framework kann. Die geteilten Beispiele wurden erstellt, indem die Gesichter zunächst mithilfe von KI wie Dall-E 3 von Grund auf generiert wurden. Daher gehört keines der gezeigten Gesichter einer realen Person. Nachher Es wurden Stimmmodelle verwendet zum Erzeugen von Stimmen. Die generierten Videos können eine Auflösung von 512 x 512 Pixel bei 45 fps (Bilder pro Sekunde) haben. Online kann es jedoch mit 40 fps genossen werden.

Das Tool ist in der Lage, Videos mit nennenswerter Lippen-Audio-Synchronisation zu produzieren. Es kann aber „auch ein breites Spektrum an Gesichtsnuancen und natürlichen Kopfbewegungen einfangen, die zur Wahrnehmung von Authentizität und Lebendigkeit beitragen.“. Wenn das Redmonder Unternehmen die Möglichkeiten der Verwendung der Vasa-1-Technologie für virtuelle Avatare angeführt hat, die durch künstliche Intelligenz gesteuert werden, Andererseits besteht die reale Gefahr einer Zunahme der ohnehin schon zahlreichen Fälle von Deep Fakes. Der US-Riese wollte versichern, dass es keine Möglichkeit gibt, diese Technologie zu nutzen, zumindest bis ein verantwortungsvoller Einsatz möglich ist. Bis dann, Microsoft beabsichtigt nicht, Details darüber mitzuteilen, wie die Funktionen des neuen Modells genutzt werden können. „Mit dieser Methode erstellte Videos enthalten immer noch identifizierbare Artefakte und die numerische Analyse zeigt, dass es immer noch eine Lücke gibt, um die Authentizität echter Videos zu erreichen“, erklären die Forscher auf der offiziellen Vasa-1-Website.

Deep Fakes in Bollywood

Aber wenn es wahr ist, dass das Unternehmen die Skrupel hatte, die Möglichkeit zu verhindern, die Vorteile einer so leistungsstarken Technologie zu nutzen, Das Gleiche gilt nicht für andere Plattformen. Einige Bollywood-Schauspieler können dies bestätigen, die ihre Gesichter als Opfer von Deepfakes für Wahlzwecke sahen. Das Image von zwei der berühmtesten indischen Schauspieler wurde tatsächlich ausgenutzt für die Erstellung irreführender Videos, was schnell viral ging. Deepfakes kritisierten Premierminister Narendra Modi. Die Kriminellen nutzten den Einfluss der Akteure auch, um die Bevölkerung dazu zu bewegen, für die Opposition zu stimmen. Zwei Videos, die nur wenige Sekunden dauerten, aber ausreichten, um viral zu gehen und auf Social-Media-Plattformen für Chaos zu sorgen. Zweite Reuterswurden seit letzter Woche mehr als eine halbe Million Mal angesehen .

Wahlen in Indien sind ziemlich kompliziert. Fast eine Milliarde Wähler haben das Wahlrecht. Die Abstimmung begann letzten Freitag und wird bis Juni dauern. Mit einem großen, beeindruckenden Publikum und viel Zeit zum Zirkulieren, Die Videos wurden auf Facebook und X geteilt, angesehen und erneut geteilt, auch von einigen Mitgliedern des Kongresses, was zu weitverbreiteten Fehlinformationen führt. Obwohl die betroffenen Akteure die Authentizität des Videos und die Aktivitäten sozialer Plattformen, die darauf abzielen, falsche Inhalte zu entfernen, bestreiten, Es gibt diejenigen, die das Video nicht nur geteilt und behalten haben, sondern noch einen Schritt weiter gegangen sind. In Südindien bat der Kongressleiter Vijay Vasanth das Team, ein (gefälschtes) Video zu erstellen, in dem sein Vater sich für seinen Sohn einsetzt. Schade, dass der Vater längst verstorben ist, aber seine Popularität ist höher als die des Erben.

Im Film des Oscar-Gewinners Christopher Nolan Beginnder Protagonist gespielt von Leonardo di Caprio, Cobb, Um die Realität von der Fiktion der Traumwelt zu unterscheiden, benutzte er einen Metallkreisel. Das Totem, wie es im Film definiert ist, ließ di Caprio verstehen, dass es sich nicht in der realen Welt befand, wenn es sich in ständiger Bewegung befand. Was wird das Totem der Bevölkerung sein, wenn Deep Fakes immer glaubwürdiger werden und Kandidaten für eine Handvoll mehr Stimmen bereit sind, gefälschte Videos von Prominenten und Verstorbenen zu teilen?

23. April 2024 (geändert 23. April 2024 | 16:30 Uhr)

© ALLE RECHTE VORBEHALTEN

Tags:

NEXT Das Unternehmen warnt, es handele sich um Betrug