Société

VALL-E : après ChatGPT, voici une nouvelle intelligence artificielle capable de reproduire votre voix en l’écoutant 3 secondes


Une équipe de chercheurs de Microsoft a lancé VALL-E, une nouvelle intelligence artificielle (IA) capable de synthétiser votre voix. Ce modèle n’est pour l’instant pas accessible au grand public mais soulève déjà des questions sur l’éthique et le danger du projet.

VALL-E est le dernier-né d’une famille d’IA en plein essor. On peut citer DALL-E 2, qui peut créer instantanément des images sur tous les thèmes et dans tous les styles imaginables, ou ChatGPT, qui permet de générer sur demande des textes comme des lettres de motivation, dissertations de lycée, scénarios…

Mais VALL-E remplit un nouveau rôle. Pour la faire fonctionner, il suffit d’écrire le texte que le programme doit réciter et enregistrer sa voix pendant 3 secondes : l’intelligence artificielle peut ensuite s’exprimer avec votre propre voix.

Mais VALL-E va même plus loin. « Nous avons constaté que VALL-E peut préserver les émotions de la voix de la personne ainsi que l’environnement acoustique de l’enregistrement », indique ainsi le document diffusé par l’équipe de recherche qui a conçu l’IA. Votre texte pourra donc être émis sur un ton craintif ou joyeux, et être plus ou moins audible selon les conditions dans lesquels vous enregistrez votre audio test. 

Un risque pour la sécurité des utilisateurs ?

Pour atteindre un tel perfectionnement, VALL-E a été entraîné via 60 000 heures de discours de la bibliothèque audio de Meta, LibriRight, « un entraînement des centaines de fois plus important que pour les systèmes existants ». 

Cette innovation soulève cependant de nombreuses interrogations quant au danger qu’elle peut présenter. Le logiciel « pourrait créer des risques potentiels d’utilisation mal intentionnée, comme usurper l’identification vocale ou se faire passer pour une autre personne », reconnaît l’équipe de chercheurs à l’origine de l’IA.

« Nous avons conçu le programme en partant du principe que l’utilisateur accepte d’être la cible d’une synthétisation de sa voix », se défendent cependant les concepteurs. « Si ce modèle est généralisé pour des utilisateurs anonymes du monde entier, il faudrait alors inclure un protocole pour s’assurer que l’interlocuteur approuve l’utilisation de sa voix et de la détection de celle-ci ». 

La démo de VALL-E, qui permet d’observer le fonctionnement de l’IA avec divers exemples, est disponible en anglais sur GitHub.

Afficher plus

Articles similaires

Bouton retour en haut de la page