Le VASA-1 de Microsoft peut simuler une personne avec une seule image et une seule piste audio

Exemple d'image de Microsoft — Agrandir / Une image de maquette de Microsoft de « VASA-1 : visages parlants vocaux générés en temps réel ».

Mardi, Microsoft Research Asia a révélé Vasa-1, un modèle d'IA capable de créer une vidéo animée synchronisée d'une personne parlant ou chantant à partir d'une seule image et d'une piste audio existante. À l'avenir, il pourrait alimenter des avatars virtuels affichés localement et ne nécessitant pas de flux vidéo, ou permettre à toute personne disposant d'outils similaires de prendre une photo de quelqu'un en ligne et de donner l'impression qu'elle dit ce qu'elle veut.

« Cela ouvre la voie à des interactions en temps réel avec des avatars réalistes qui imitent les comportements conversationnels humains », indique le résumé de la recherche. Document de recherche qui l'accompagne Intitulé « VASA-1 : des visages parlants réalistes basés sur la voix créés en temps réel ». C'est l'œuvre de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong et Baining Guo.

Le framework VASA (abréviation de « Visual Affective Skills Animator ») utilise l'apprentissage automatique pour analyser une image fixe ainsi qu'un extrait audio de discours. Une vidéo réaliste peut ensuite être créée contenant des expressions faciales précises, des mouvements de tête et une synchronisation labiale avec l'audio. Il ne clone ni ne simule les sons (comme d'autres recherches Microsoft) mais s'appuie sur une entrée vocale existante qui peut être enregistrée ou prononcée spécifiquement dans un but spécifique.

Microsoft affirme que le modèle surpasse considérablement les méthodes d'animation vocale précédentes en termes de réalisme, d'expressivité et d'efficacité. À nos yeux, cela ressemble à une amélioration par rapport aux modèles d’animation à image unique précédents.

Les efforts de recherche sur l'intelligence artificielle s'étendent au déplacement d'au moins une image d'une personne ou d'un personnage vers l'arrière Quelques annéesMais récemment, des chercheurs ont synchronisé une vidéo générée automatiquement avec une piste audio. En février, le modèle AI a été rappelé EMO : Exprimez l’image vivante Le groupe de recherche de l'Intelligent Computing Institute d'Alibaba fait des vagues avec une approche similaire à VASA-1 qui peut automatiquement synchroniser une image animée avec une piste audio rendue (ils l'appellent « Audio2Video »).

Je me suis entraîné sur des clips YouTube

Les chercheurs de Microsoft ont formé VASA-1 sur Ensemble de données VoxCeleb2 Elle a été créée en 2018 par trois chercheurs de l’Université d’Oxford. Cet ensemble de données contient « plus d’un million de phrases provenant de 6 112 célébrités », selon VoxCeleb2, extraites de vidéos mises en ligne sur YouTube. Le VASA-1 serait capable de créer des vidéos de 512 x 512 pixels jusqu'à 40 images par seconde avec une latence minimale, ce qui signifie qu'il pourrait être utilisé pour des applications en temps réel telles que la vidéoconférence.

Pour démontrer le modèle, Microsoft a créé une page de recherche VASA-1 affichant De nombreux échantillons vidéo de l'instrument en action, y compris des personnes chantant et parlant en synchronisation avec des pistes audio préenregistrées. Il montre comment le modèle peut être manipulé pour exprimer différentes humeurs ou changer l'apparence de ses yeux. Les exemples incluent également certaines des générations les plus cool, comme Mona Lisa rappant sur une bande originale d'Anne Hathaway interprétant un numéro musical. Chanson « Paparazzi ». Sur Conan O'Brien.

Pour des raisons de confidentialité, chaque exemple d'image sur leur page a été généré par l'intelligence artificielle, disent les chercheurs. Stylegan2 Ou DALL-E 3 (à part la Joconde). Mais évidemment, cette technique peut également s'appliquer à des images de personnes réelles, même si elle fonctionnera probablement mieux si la personne ressemble à l'une des célébrités de l'ensemble de données d'entraînement. Cependant, les chercheurs affirment que leur objectif n’est pas de falsifier de vrais humains.

«Nous explorons la génération de compétences visuelles et émotionnelles pour les personnages virtuels et interactifs [sic]- Ne vous faites passer pour personne dans le monde réel. Il ne s’agit que d’une démonstration de recherche et il n’est pas prévu de publier un produit ou une API », peut-on lire sur le site.

Alors que les chercheurs de Microsoft vantent des applications positives potentielles telles que la promotion de l’équité en matière d’éducation, l’amélioration de l’accessibilité et l’offre d’un accompagnement thérapeutique, la technologie peut également être facilement utilisée à mauvais escient. Par exemple, cela pourrait permettre aux gens de simuler des chats vidéo, de donner l’impression que de vraies personnes disent des choses qu’elles n’ont jamais dites (surtout lorsqu’elles sont associées à une piste audio clonée) ou d’autoriser le harcèlement par une seule image sur les réseaux sociaux.

À l’heure actuelle, la vidéo générée semble encore imparfaite à certains égards, mais elle pourrait être assez convaincante pour certaines personnes si elles ne savaient pas qu’elles s’attendaient à une animation générée par l’IA. Les chercheurs affirment qu’ils en sont conscients, c’est pourquoi ils n’ont pas rendu public le code qui pilote le modèle.

« Nous nous opposons à tout comportement visant à créer du contenu trompeur ou préjudiciable pour de vraies personnes, et nous souhaitons appliquer notre méthode pour améliorer la détection des fraudes », ont écrit les chercheurs. « Actuellement, les vidéos créées de cette manière contiennent encore des artefacts reconnaissables, et l'analyse numérique montre qu'il existe encore un écart pour atteindre l'authenticité des vidéos réelles. »

VASA-1 n'est qu'une démonstration de recherche, mais Microsoft n'est pas le seul groupe à travailler au développement d'une technologie similaire. Si l’on en croit l’histoire récente de l’IA générative, ce ne sera probablement qu’une question de temps avant qu’une technologie similaire devienne open source et disponible gratuitement – et il est très probable qu’elle continuera à s’améliorer en termes de réalisme au fil du temps.

Le VASA-1 de Microsoft peut simuler une personne avec une seule image et une seule piste audio

Je me suis entraîné sur des clips YouTube

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple

Les joueurs se plaignent de la longue recherche de joueurs sur PS5 alors que le nombre de joueurs diminue

La société d’intelligence artificielle Midjourney présente un produit matériel sous une nouvelle forme

Pourquoi la France interdit aux athlètes olympiques de porter le hijab

Federico Chiesa achève son transfert à Liverpool depuis la Juventus

Compenser le sommeil le week-end pourrait réduire d’un cinquième le risque de maladie cardiaque – étude | Maladie cardiaque

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple

Je me suis entraîné sur des clips YouTube

Laisser un commentaire Annuler la réponse

More Stories

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple

Les joueurs se plaignent de la longue recherche de joueurs sur PS5 alors que le nombre de joueurs diminue

La société d’intelligence artificielle Midjourney présente un produit matériel sous une nouvelle forme

You may have missed

Pourquoi la France interdit aux athlètes olympiques de porter le hijab

Federico Chiesa achève son transfert à Liverpool depuis la Juventus

Compenser le sommeil le week-end pourrait réduire d’un cinquième le risque de maladie cardiaque – étude | Maladie cardiaque

Les principaux sites Web refusent d’utiliser la technologie d’intelligence artificielle d’Apple