Dans cette série d'articles, nous explorerons l'univers des deep fakes, depuis une brève histoire de la technologie jusqu'à l'utilisation de bibliothèques open source pour apprendre quelques cas d'usage classiques des deep fakes actuels. Entre la transformation d'un visage et la recréation d'un discours, ils constituent l'une des technologies d'apprentissage profond (deep learning) les plus impressionnantes développées au cours des dernières années.
Dans ce premier article de blog, nous aborderons l'histoire de la technologie et la manière dont elle est utilisée aujourd'hui dans l'industrie. Ensuite, les techniques de création de deep fakes seront présentées. Les nouvelles technologies s'accompagnent également de nouvelles préoccupations, car elles n'ont pas toujours des implications positives. L'éthique de l'utilisation des deep fakes et les outils de vérification des contenus transformés seront également abordés.
Dans les prochains articles, nous apprendrons à créer des choses impressionnantes :
Mais d'abord, la chose la plus importante ! Qu'est-ce qu'un deep fake ?
L'apprentissage profond (deep learning) est une méthode d'apprentissage automatique (machine learning) basée sur des réseaux neuronaux qui utilisent des algorithmes dérivés du fonctionnement du cerveau. Ces réseaux sont entraînés pour réaliser certaines tâches par un processus de prédiction. La transformation des données est l'une des applications les plus utiles des technologies d'apprentissage profond, englobant la création de données, l'analyse de données et la modification de données. Les deep fakes sont l'une des façons les plus impressionnantes d'appliquer les transformations de l'apprentissage profond, car chaque aspect de la technologie est utilisé pour altérer activement les données d'origine.
La première apparition du terme deep fake remonte à 2016, lorsqu'il a été utilisé par des internautes pour l'échange de visages (face swapping). L'utilisation la plus courante des deep fakes est de copier des attributs humains. Cela peut se faire sur un visage dans une vidéo, sur une image ou sur une voix. C'est pour ces raisons que le terme deep fake a été inventé pour désigner les transformations d'apprentissage profond qui modifient les attributs humains. Cependant, il se réfère à l'origine et généralement à l'acte de remplacer un visage par un autre dans une vidéo.
Les technologies de deep fake ont plus de 20 ans. Voici quelques dates clés :
En moins de cinq ans, les améliorations technologiques ont rendu les deep fakes plus réalistes et plus faciles à utiliser. Ce qui était au début du siècle une recherche académique étrange est aujourd'hui, 20 ans après, un outil efficace et utilisable accessible à tous. À ce stade, la technologie arrive à maturité pour être sérieusement envisagée pour un usage personnel et commercial, que ce soit avec de bonnes ou de mauvaises intentions. Avec un ordinateur relativement puissant ou en utilisant notre solution GPU Qarnot, on peut facilement créer des vidéos d'un réalisme bluffant.
Un concept simple se cache derrière la plupart des technologies de deep fake : l'architecture encodeur-décodeur (encoder-decoder). D'un côté, l'encodeur est un module de réseau neuronal utilisé pour extraire et concentrer les données afin de ne conserver que les informations les plus utiles. Par exemple, avec l'image d'une personne, seules les parties les plus importantes comme la forme des yeux ou de la bouche sont conservées. De l'autre côté, le décodeur, connecté à l'encodeur, est un autre module de réseau neuronal utilisé pour recréer la donnée source, par exemple un visage, en utilisant les entrées de l'encodeur.
Le réseau neuronal est entraîné pour recréer les différents visages qui lui sont donnés. Cela se fait en lui fournissant des milliers d'images et en modifiant l'algorithme après chacune d'elles afin que les résultats se rapprochent de l'image originale. En utilisant le même visage encore et encore. Le décodeur entraîné est utilisé pour convertir une image d'entrée en celle qu'il connaît.
Vous pouvez voir l'architecture encodeur-décodeur utilisée pour changer le visage de Keanu Reeves dans Matrix par celui de Nicolas Cage. Si vous conservez l'encodeur et changez le décodeur, votre modèle changera le visage de l'image : Keanu Reeves avec le visage transformé en Nicolas Cage dans le film Matrix (réalisé par les Wachowski, propriété de Warner Bros.)
Vous pouvez appliquer la même méthode pour créer un deep fake audio qui modifie le timbre de voix d'un enregistrement audio pour le faire ressembler à quelqu'un d'autre. Pour créer un deep fake audio, vous entraînez l'algorithme encodeur-décodeur avec des milliers d'échantillons audio d'une personne. Il transforme ensuite n'importe quelle voix en la recréant avec de nouveaux paramètres.
Un autre cas d'usage est le framework Wav2Lip qui modifie les mouvements des lèvres d'une personne à l'écran en fonction d'un enregistrement audio. Par conséquent, le discours initial sera ignoré et la synchronisation sera effectuée avec la nouvelle piste audio. Cet algorithme utilise deux encodeurs, un pour les textes et un pour les images, puis un décodeur pour apprendre la corrélation entre l'audio et les mouvements des lèvres.
La plupart du temps, les méthodes habituelles nécessitent de ré-entraîner le modèle chaque fois que vous souhaitez un nouveau visage. Ces modèles entraînés sont plus précis, mais aussi plus coûteux en puissance de calcul. Le First Order Model propose un modèle d'apprentissage profond capable d'apprendre des motifs à partir de n'importe quelle vidéo sans nécessiter beaucoup de traitement de données. Il utilise des sous-couches spécifiques pour apprendre les mouvements et est couplé à un encodeur-décodeur pour créer de nouvelles images. Selon l'entraînement, il peut animer un visage, un corps ou même un animal.
Dans l'industrie cinématographique, les deep fakes sont très prometteurs. Ils sont déjà utilisés conjointement avec les techniques traditionnelles de transformation de visage. Ils permettent l'utilisation continue de personnages de films lorsque les acteurs originaux sont indisponibles ou décédés. Par exemple, cela a été utilisé dans Star Wars : L'Ascension de Skywalker pour recréer les visages des jeunes Luke et Leia pendant leur scène d'entraînement. Cela peut aussi être utilisé pour rajeunir les acteurs comme Samuel L. Jackson dans le rôle de Nick Fury dans le film Marvel Captain Marvel. Dans les prochaines années, il n'est pas impossible d'imaginer de nombreux acteurs emblématiques comme Marilyn Monroe ou Bruce Lee être ramenés à la vie dans les prochains films grâce à cette technologie.
Les créateurs de South Park, Trey Parker et Matt Stone, ont créé une émission-débat humoristique nommée Sassy Justice présentée par un faux Donald Trump qui interviewe d'autres célébrités deep fakes comme Julie Andrews, Michael Caine et Mark Zuckerberg. Fait amusant, l'un des objectifs de cette émission est d'avertir les téléspectateurs des dangers des deep fakes.
Channel 4 a également créé une vidéo virale montrant la Reine Elizabeth II présentant ses vœux du Nouvel An, se moquant des événements survenus pendant l'année et faisant une danse Tik-Tok dans son bureau.
Nvidia a créé un certain nombre d'outils qui peuvent être utilisés pour améliorer la qualité des vidéos de basse résolution à l'aide d'une seule image et de transformations d'apprentissage automatique. Le concept est similaire au deep fake. Grâce à cette technologie, il est possible d'envoyer des vidéos 1080p avec moins de la moitié de la bande passante de données habituelle. En conséquence, la vidéo finale est plus fluide et plus lisse que la vidéo initiale.
Il est également possible d'imaginer l'utilisation de deep fakes pour le doublage des films. La voix de l'acteur original serait donnée à l'acteur de doublage qui traduit le dialogue. Cela pourrait également être utilisé pour synchroniser les mouvements des lèvres avec les bandes sonores vocales ou les paroles de chansons.
Dans les jeux vidéo, cela pourrait être utilisé pour personnaliser son personnage avec sa voix et son visage. Dans l'animation 3D, cela peut à nouveau être utilisé pour synchroniser les mouvements des lèvres du personnage animé et la voix de son acteur.
L'apprentissage automatique ouvre une pléthore de nouvelles possibilités et nous permet d'atteindre de nouvelles fonctionnalités et de nouvelles créations passionnantes. De même qu'un couteau peut à la fois être utilisé pour cuisiner et blesser des personnes, les outils d'apprentissage automatique nouvellement créés peuvent avoir des résultats différents selon la façon dont les gens les utilisent. Contrairement aux menaces posées par les couteaux qui sont bien connues et punissables par la loi, les dangers des nouvelles technologies comme l'apprentissage automatique sont plus difficiles à comprendre et assez inconnus de la majorité. De plus, les outils juridiques et les lois qui devraient nous protéger contre eux ne sont pas encore matures. Les deep fakes sont définis comme l'une des technologies d'apprentissage automatique les plus dangereuses des prochaines années par de nombreux analystes. Pour ces raisons, nous devons les comprendre pour pouvoir les utiliser correctement et reconnaître les usages inappropriés, parmi lesquels on trouve, sans s'y limiter :
Comme mentionné, comprendre, détecter et sensibiliser tout le monde à cette technologie est vraiment important et doit être davantage poussé dans les années à venir. C'est aussi l'un des objectifs des prochains articles, alors allons-y et faisons quelques deep fakes !
Dans les articles suivants, nous testerons différents modèles de deep fake et les calculerons sur la plateforme Qarnot.