Meta fait un bond en avant pour les images d’IA

Meta lance deux nouveaux outils IA. Ils reposent tous deux sur le modèle de base qu’Emu a présenté au début de l’année.

Étant l’un des noms les plus connus dans le domaine de la tech, Meta doit suivre le rythme de la course à l’IA (par exemple les salles de formation virtuelles pour les robots IA). L’entreprise a maintenant lancé deux outils basés sur le modèle de fondation qu’Emu a proposé en septembre. Ce modèle a aussi été utilisé dans le nouvel assistant IA que Meta a dévoilé au monde entier à cette occasion.

Emu Video

Les utilisateurs peuvent ainsi générer des vidéos via des invites textuelles basées sur des modèles de diffusion. Cette infrastructure d’images animées répond à toutes sortes d’entrées :

  • Texte
  • Image
  • Texte et image combinés

L’équipe de recherche de Meta a divisé le processus en deux. Premièrement, on crée une image via une invite textuelle, puis on peut générer une vidéo en traitant à la fois le texte et l’image. Les chercheurs peuvent ainsi mieux former les modèles de génération de vidéos.

Il ne faut plus que deux modèles de diffusion pour générer une vidéo de quatre secondes, à 16 images par seconde. Ce modèle peut aussi animer des images à l’aide d’une invite textuelle.

Emu Edit

Parfois, les invites textuelles prennent du temps à montrer exactement ce qu’on a à l’esprit. Cet outil a été créé pour répondre à cette question. Il arrive souvent qu’il faut modifier une invite plusieurs fois avant qu’un générateur d’images d’IA ne montre ce que l’on veut.

Grâce à Emu Edit, Meta veut simplifier encore plus ce processus. On peut ajuster une image de façon générale ou très précisément : changer l’arrière-plan, ajuster les formes géométriques ou jouer avec les couleurs.

Meta cherche à modifier uniquement les pixels qui sont pertinents pour la tâche à accomplir. Emu Edit devrait donc être beaucoup plus précis que les autres modèles. Par exemple, pour ajouter du texte à un objet, ce modèle ne touchera pas du tout aux pixels de l’objet lui-même.

Meta a formé son modèle avec plus de 10 millions d’échantillons synthétisés contenant :

  • Une image d’entrée
  • La tâche à effectuer
  • L’image voulue

Créatif et responsable

Selon Meta, les possibilités se trouvent dans un champ de créativité. Des autocollants animés personnalisés aux meilleurs GIF.

Sans aucune connaissance technique, il est possible d’éditer des vidéos et des images, et même d’animer des photos. Meta souligne tout de même que les graphistes professionnels n’ont rien à craindre ; cette technologie devrait aussi les aider et non les remplacer.

Reste à voir comment cette recherche évoluera. Au cours du week-end, on a appris que Meta avait scindé son équipe Responsible AI (RAI) et l’avait répartie entre d’autres projets d’IA. La raison d’être de cette équipe était de surveiller les effets négatifs de la technologie au cours de son développement.

newsletter

Abonnez-vous gratuitement à ITdaily !

Category(Required)
This field is for validation purposes and should be left unchanged.