Le combo d’IA générative de Meta se déplace : la génération de vidéos dépasse la génération 2 et les emojis d’images animées peuvent être personnalisés à votre guise

L’IA générative est entrée dans l’ère de la vidéo.

Source originale : Heart of the Machine

Source de l’image : Généré par Unbounded AI

Lorsqu’il s’agit de génération de vidéos, beaucoup de gens pensent probablement d’abord à Gen-2 et à Pika Labs. Mais tout à l’heure, Meta a annoncé qu’ils les avaient tous les deux surpassés en termes de génération de vidéos et qu’ils étaient plus flexibles dans le montage.

Cette « trompette, lapin dansant » est la dernière démo publiée par Meta. Comme vous pouvez le voir, la technologie de Meta prend en charge à la fois l’édition d’images flexible (par exemple, transformer un « lapin » en « lapin trompette » puis un « lapin trompette aux couleurs de l’arc-en-ciel ») et la génération de vidéos haute résolution à partir de texte et d’images (par exemple, faire danser joyeusement un « lapin trompette »).

En fait, il y a deux choses en jeu.

L’édition flexible de l’image est effectuée par un modèle appelé « Emu Edit ». Il prend en charge l’édition gratuite d’images avec du texte, y compris l’édition locale et globale, la suppression et l’ajout d’arrière-plans, les conversions de couleurs et de géométries, la détection et la segmentation, etc. De plus, il suit les instructions avec précision, en veillant à ce que les pixels de l’image d’entrée qui ne sont pas liés aux instructions restent intacts.

Habiller l’autruche d’une jupe

La vidéo haute résolution est générée par un modèle appelé « Emu Video ». Emu Video est un modèle basé sur la diffusion de la vidéo Wensheng qui est capable de générer une vidéo haute résolution de 4 secondes de 512x512 à partir de texte (des vidéos plus longues sont également abordées dans l’article). Une évaluation humaine rigoureuse a montré qu’Emu Video a obtenu de meilleurs résultats à la fois en termes de qualité de génération et de fidélité du texte par rapport à la génération Gen-2 de Runway et à la performance de génération de Pika Labs. Voici à quoi cela ressemblera :

Dans son blog officiel, Meta a envisagé l’avenir des deux technologies, notamment en permettant aux utilisateurs de médias sociaux de générer leurs propres GIF, mèmes et modifier des photos et des images comme ils le souhaitent. À ce sujet, Meta l’a également mentionné lors de la sortie du modèle Emu lors de la précédente conférence Meta Connect (voir : « La version de ChatGPT de Meta est là : bénédiction de Llama 2, accès à la recherche Bing, démo en direct de Xiaozha »).

Ensuite, nous présenterons chacun de ces deux nouveaux modèles.

EmuVideo

Le grand modèle de graphe de Wensheng est entraîné sur des paires image-texte à l’échelle du Web pour produire des images diversifiées et de haute qualité. Bien que ces modèles puissent être adaptés à la génération de texte en vidéo (T2V) grâce à l’utilisation de paires vidéo-texte, la génération de vidéos reste à la traîne par rapport à la génération d’images en termes de qualité et de variété. Par rapport à la génération d’images, la génération de vidéos est plus difficile car elle nécessite la modélisation d’une dimension plus élevée de l’espace de sortie spatio-temporel, qui peut toujours être basé sur des invites textuelles. De plus, les jeux de données vidéo-texte sont généralement d’un ordre de grandeur plus petit que les jeux de données image-texte.

Le mode dominant de génération vidéo consiste à utiliser un modèle de diffusion pour générer toutes les images vidéo à la fois. En revanche, en NLP, la génération de séquences longues est formulée comme un problème autorégressif : prédire le mot suivant sur la condition d’un mot précédemment prédit. En conséquence, le signal conditionnant de la prédiction ultérieure deviendra progressivement plus fort. Les chercheurs émettent l’hypothèse qu’un conditionnement amélioré est également important pour la génération de vidéos de haute qualité, qui est elle-même une série chronologique. Cependant, le décodage autorégressif avec des modèles de diffusion est difficile, car la génération d’une image unique à l’aide de tels modèles nécessite plusieurs itérations en soi.

En conséquence, les chercheurs de Meta ont proposé EMU VIDEO, qui augmente la génération de texte en vidéo basée sur la diffusion avec une étape intermédiaire explicite de génération d’images.

Adresse:

Adresse du projet :

Plus précisément, ils ont décomposé le problème vidéo de Wensheng en deux sous-problèmes : (1) la génération d’une image basée sur l’invite de texte d’entrée, et (2) la génération d’une vidéo basée sur les conditions de renforcement de l’image et du texte. Intuitivement, le fait de donner au modèle une image et un texte de départ facilite la génération de vidéos, car le modèle n’a qu’à prédire l’évolution de l’image à l’avenir.

*Les chercheurs de Meta ont divisé la vidéo Wensheng en deux étapes : d’abord générer l’image I conditionnelle au texte p, puis utiliser des conditions plus fortes – l’image et le texte résultants – pour générer la vidéo v. Pour contraindre le Model F avec une image, ils se sont temporairement concentrés sur l’image et l’ont connectée à un masque binaire qui indique quelles images ont été mises à zéro, ainsi qu’à une entrée bruitée. *

Étant donné que l’ensemble de données vidéo-texte est beaucoup plus petit que l’ensemble de données image-texte, les chercheurs ont également initialisé leur modèle texte-vidéo avec un modèle texte-image pré-entraîné (T2I) gelé en poids. Ils ont identifié les décisions clés en matière de conception, à savoir la modification de la programmation du bruit diffus et la formation en plusieurs étapes, afin de produire directement une vidéo haute résolution de 512 pixels.

Contrairement à la méthode de génération d’une vidéo directement à partir de texte, leur méthode de décomposition génère explicitement une image lors de l’inférence, ce qui leur permet de préserver facilement la diversité visuelle, le style et la qualité du modèle de diagramme de Wensheng (comme le montre la figure 1). CELA PERMET À EMU VIDEO DE SURPASSER LES MÉTHODES T2V DIRECTES, MÊME AVEC LES MÊMES DONNÉES D’APPRENTISSAGE, LA MÊME QUANTITÉ DE CALCUL ET LES MÊMES PARAMÈTRES D’APPRENTISSAGE.

Cette étude montre que la qualité de la génération de vidéos Wensheng peut être considérablement améliorée grâce à une méthode d’entraînement en plusieurs étapes. Cette méthode prend en charge la génération directe de vidéos haute résolution à 512 px sans avoir besoin de certains des modèles en cascade profonde utilisés dans la méthode précédente.

Les chercheurs ont mis au point un protocole d’évaluation humain robuste, JUICE, dans lequel les évaluateurs ont été invités à prouver que leur choix était correct lorsqu’ils faisaient un choix entre paires. Comme le montre la figure 2, les taux de réussite moyens d’EMU VIDEO de 91,8 % et 86,6 % en termes de qualité et de fidélité du texte sont bien supérieurs à tous les travaux en amont, y compris les solutions commerciales telles que Pika, Gen-2 et autres. EN PLUS DE T2V, LA VIDÉO EMU PEUT ÉGALEMENT ÊTRE UTILISÉE POUR LA GÉNÉRATION D’IMAGES À VIDÉO, OÙ LE MODÈLE GÉNÈRE UNE VIDÉO BASÉE SUR DES IMAGES ET DES INVITES TEXTUELLES FOURNIES PAR L’UTILISATEUR. Dans ce cas, les résultats de génération d’EMU VIDEO sont 96% meilleurs que ceux de VideoComposer.

Comme vous pouvez le voir dans la démo présentée, EMU VIDEO peut déjà prendre en charge la génération de vidéos de 4 secondes. Dans l’article, ils explorent également des moyens d’augmenter la longueur de la vidéo. Avec une petite modification architecturale, les auteurs disent qu’ils peuvent contraindre le modèle sur un cadre en T et étendre la vidéo. ILS ONT DONC ENTRAÎNÉ UNE VARIANTE DE LA VIDÉO EMU POUR GÉNÉRER LES 16 IMAGES SUIVANTES À CONDITION DE « PASSER » 16 IMAGES. Lors de l’agrandissement de la vidéo, ils utilisent une invite de texte future différente de celle de la vidéo d’origine, comme illustré à la figure 7. Ils ont constaté que la vidéo étendue suit à la fois la vidéo originale et les invites textuelles futures.

Emu Edit : Retouche d’image précise

Des millions de personnes utilisent la retouche d’images chaque jour. Cependant, les outils de retouche d’images populaires nécessitent soit une expertise considérable et prennent du temps à utiliser, soit sont très limités et n’offrent qu’un ensemble d’opérations d’édition prédéfinies, telles que des filtres spécifiques. À ce stade, l’édition d’images basée sur des instructions tente d’amener les utilisateurs à utiliser des instructions en langage naturel pour contourner ces limitations. Par exemple, un utilisateur peut fournir une image à un modèle et lui demander d'« habiller un émeu avec un costume de pompier » (voir Figure 1).

Cependant, bien que les modèles d’édition d’images basés sur des instructions comme InstructPix2Pix puissent être utilisés pour gérer une variété d’instructions données, ils sont souvent difficiles à interpréter et à exécuter avec précision. De plus, ces modèles ont des capacités de généralisation limitées et sont souvent incapables d’effectuer des tâches légèrement différentes de celles pour lesquelles ils ont été formés (voir la figure 3), comme faire souffler une trompette aux couleurs de l’arc-en-ciel par un bébé lapin, et d’autres modèles teignent le lapin aux couleurs de l’arc-en-ciel ou génèrent directement une trompette aux couleurs de l’arc-en-ciel.

Pour résoudre ces problèmes, Meta a introduit Emu Edit, le premier modèle d’édition d’images entraîné sur un large éventail de tâches, qui peut effectuer des modifications de forme libre basées sur des commandes, y compris l’édition locale et globale, la suppression et l’ajout d’arrière-plans, les changements de couleur et les transformations géométriques, ainsi que la détection et la segmentation.

Adresse:

Adresse du projet :

Contrairement à de nombreux modèles d’IA générative d’aujourd’hui, Emu Edit peut suivre les instructions avec précision, en veillant à ce que les pixels non liés dans l’image d’entrée restent intacts. Par exemple, si l’utilisateur donne la commande « enlever le chiot sur l’herbe », l’image après avoir retiré l’objet est à peine perceptible.

La suppression du texte dans le coin inférieur gauche de l’image et la modification de l’arrière-plan de l’image seront également gérées par Emu Edit :

Pour entraîner ce modèle, Meta a développé un ensemble de données de 10 millions d’échantillons synthétiques, chacun contenant une image d’entrée, une description de la tâche à effectuer et une image de sortie cible. En conséquence, Emu Edit affiche des résultats d’édition sans précédent en termes de fidélité des commandes et de qualité d’image.

Au niveau méthodologique, les modèles Meta-entraînés peuvent effectuer seize tâches d’édition d’images différentes, couvrant l’édition basée sur la région, l’édition de forme libre et les tâches de vision par ordinateur, qui sont toutes formulées sous forme de tâches génératives, et Meta a également développé un pipeline de gestion des données unique pour chaque tâche. Meta a constaté qu’à mesure que le nombre de tâches d’entraînement augmente, les performances d’Emu Edit augmentent également.

Deuxièmement, afin de gérer efficacement une grande variété de tâches, Meta a introduit le concept d’intégration de tâches apprises, qui est utilisé pour guider le processus de génération dans la bonne direction de la tâche de construction. Plus précisément, pour chaque tâche, cet article apprend un vecteur d’intégration de tâche unique et l’intègre dans le modèle par le biais d’une interaction d’attention croisée et l’ajoute à l’incorporation de pas de temps. Les résultats montrent que l’intégration de tâches d’apprentissage améliore considérablement la capacité du modèle à raisonner avec précision à partir d’instructions de forme libre et à effectuer des modifications correctes.

En avril de cette année, Meta a lancé le modèle d’IA « Split Everything », et l’effet a été si étonnant que de nombreuses personnes ont commencé à se demander si le champ CV existe toujours. En quelques mois seulement, Meta a lancé Emu Video et Emu Edit dans le domaine des images et des vidéos, et nous ne pouvons que dire que le domaine de l’IA générative est vraiment trop volatile.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)