Microsoft KI VASA: Fotos und Bilder lernen zu sprechen (DF-Tech)

Von

24. April 2024, 11:13

320

Microsoft Vasa KI Animation für Bilder — Bildquelle: Microsoft Research

Microsofts neue KI-Technologie erscheint auf den ersten Blick derart surreal, dass man VASA schlichtweg als veralteten Aprilscherz missverstehen könnte. Doch Microsofts KI-Lösung, um Bildern das Sprechen beizubringen, ist real.

Im Internetzeitalter ist man es mittlerweile gewöhnt, aufgrund von KI-Manipulationen selbst Videoaufnahmen kritisch zu hinterfragen. Microsofts VASA-Technologie (virtual characters with appealing visual affective skills and speech audio) könnte zukünftig jeden von uns vor die entscheidende Frage stellen: Habe ich diese Worte tatsächlich so gesagt?

Frankensteins Monster

Mit VASA ist es möglich, jedes Foto oder Kunstbild eines Gesichts räumlich darzustellen und vergleichsweise realistisch zu animieren. Wird eine vorgefertigte Tonaufnahme bereitgestellt, bewegen sich die Lippen synchron zur Sprache und Gesichter zeigen menschliche Emotionen. Alles, was es braucht, ist ein Bild und eine Audiodatei – der Rest passiert durch die Software automatisch. Zahlreiche Regler ermöglichen es nachträglich, die emotionale Stimmung und die Intensität der Gesichtsregungen sowie die Augenbewegungen zu beeinflussen.

Innovation oder Gruselshow?

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Inhalt von YouTube immer anzeigen

Hinter der neuen KI-Software stecken zahlreiche internationale Forscher der Microsoft-Research-Abteilung. Aktuell erzielt die Software auf Basis hochauflösender Fotos und Bilder eine Videoauflösung von 512 x 512 Bildpunkten bei 40 Bildern pro Sekunde und erlaubt die Animation von Bildern in Echtzeit. Die effektive Verzögerung zur Berechnung beträgt lediglich 170 Millisekunden. Als GPU-Hardware zur Berechnung kam Microsoft zufolge eine Nvidia RTX 4090 zum Einsatz.

Der Fantasie sind mit VASA keine Grenzen gesetzt: Jede Portrait-Aufnahme lässt mit VASA nachträglich animieren und mit Audiodateien verknüpfen, sodass, wie im Microsoft-Beispiel, selbst die Mona Lisa eine Stimme erlangt.

Hier klicken, um den Inhalt von vasavatar.github.io anzuzeigen

Inhalt von vasavatar.github.io immer anzeigen

Ob VASA zukünftig tatsächlich ohne Einschränkungen eingesetzt werden darf, bleibt abzuwarten, schließlich sind dem Online-Missbrauch Tür und Tor geöffnet. Microsoft ist sich dieser Problematik bewusst, weshalb VASA bislang nicht öffentlich zur Verfügung gestellt wird. Zitat: „Vor diesem Hintergrund haben wir nicht vor, eine Online-Demo, eine API, ein Produkt, zusätzliche Implementierungsdetails oder damit verbundene Angebote zu veröffentlichen, bis wir sicher sind, dass die Technologie verantwortungsvoll und in Übereinstimmung mit den entsprechenden Vorschriften genutzt wird.“

DF-Newsletter: Jetzt hier kostenlos abonnieren!