VALL-E de Microsoft ne prend que trois secondes pour imiter votre voix

vall-e microsoft ai

Microsoft présente VALL-E, une technologie capable d’imiter les voix de manière réaliste à partir de courts enregistrements. Le modèle d’IA est même entraîné à reproduire des émotions.

On vit une époque intéressante sur le plan des développements de l’intelligence artificielle. Après qu’OpenAI nous a impressionnés avec Dall-E et ChatGPT, c’est maintenant à Microsoft de sortir un beau bijou d’IA. Via GitHub, Microsoft propose une démonstration de VALL-E, un système d’IA capable d’imiter les voix.

VALL-E est un modèle de langage neuronal destiné à la synthèse de la parole à partir du texte. Un document de recherche précise que le modèle a été entraîné avec plus de soixante mille heures d’enregistrements vocaux en langue anglaise. C’est pour cette raison que le modèle est déjà capable d’imiter la voix d’une personne avec un grand réalisme en se basant sur un enregistrement de seulement trois secondes.

Le modèle de Microsoft n’est certainement pas le premier de son genre, mais les modèles vocaux d’IA précédents ont toujours eu un son très robotique jusqu’à présent. Le résultat fourni par VALL-E semble beaucoup plus naturel et correspond également mieux au locuteur. Écoutez quelques enregistrements et jugez par vous-même.

vall-e schema
Vue schématique de VALL-E. Source : Microsoft

Émotions et acoustique

En outre, VALL-E est également formé pour inclure les émotions et l’acoustique de l’environnement. Si l’on présente au modèle l’enregistrement d’un appel téléphonique, il reproduira également la voix comme si elle sortait d’un téléphone.

Le modèle lutte encore énormément à rendre les émotions naturelles. Dans la démo, il y a quelques clips où VALL-E essaie d’imiter la colère, la fatigue, la joie et le dégoût. On entend immédiatement que ces émotions sonnent très artificielles et le résultat est meilleur lorsque la voix est neutre.

Défaitisme

Malgré les défauts de beauté, les progrès de VALL-E sont impressionnants. En général, les voix produites sont très réalistes. Si réaliste que les défaiteurs commencent déjà à se manifester. Par exemple, on craint que des technologies telles que VALL-E ne soient utilisées pour la diffusion de fausses informations, car il est encore plus facile de faire prononcer aux gens des mots qu’ils n’ont jamais prononcés.

Conscients des complications éthiques, les chercheurs demandent que des protocoles soient établis afin de garantir que le locuteur puisse toujours donner son autorisation pour utiliser et modifier les enregistrements. Pour l’instant, il ne semble pas non plus que VALL-E sera disponible pour le grand public. Cependant, Microsoft explore déjà à fond la manière dont elle peut utiliser ChatGPT pour intégrer la technologie de l’IA dans Office et Bing.

newsletter

Abonnez-vous gratuitement à ITdaily !

Category(Required)
This field is for validation purposes and should be left unchanged.