Une étude récente d’Apple a considérablement amélioré les performances des modèles de diffusion sur les images haute résolution.
En utilisant cette méthode, le nombre d’étapes d’apprentissage est réduit de plus de soixante-dix pour cent pour la même résolution d’image.
Avec une résolution de 1024 ×1024, la qualité d’image est directement complète et les détails sont clairement visibles.
Apple a nommé cette réalisation MDM, DM est l’abréviation de Diffusion Model et le premier M signifie Matriochka.
Tout comme une vraie poupée matriochka, le MDM imbrique les processus basse résolution dans les processus haute résolution, et il est imbriqué dans plusieurs couches.
Les processus de diffusion haute et basse résolution sont effectués simultanément, ce qui réduit considérablement la consommation de ressources du modèle de diffusion traditionnel dans le processus haute résolution.
Pour les images d’une résolution de 256×256, dans un environnement avec une taille de lot de 1024, le modèle de diffusion traditionnel doit entraîner 1,5 million de pas, tandis que le MDM n’en a besoin que de 390 000, ce qui est réduit de plus de 70 %.
De plus, le MDM adopte une formation de bout en bout, ne s’appuie pas sur des ensembles de données spécifiques et des modèles pré-entraînés, tout en garantissant la qualité de la génération tout en accélérant, et est flexible à utiliser.
Non seulement des images haute résolution peuvent être dessinées, mais des vidéos 16×256² peuvent également être composées.
Certains internautes ont commenté qu’Apple avait finalement connecté le texte à l’image.
Alors, comment la technologie de « poupée matriochka » de MDM s’y prend-elle ?
Combinaison holistique et progressive
Avant de commencer l’entraînement, les données doivent être prétraitées et les images haute résolution seront rééchantillonnées avec un certain algorithme pour obtenir différentes versions de résolution.
Ces données de différentes résolutions sont ensuite utilisées pour la modélisation conjointe de l’UNet, avec un petit UNet traitant la basse résolution et l’imbrication dans un grand UNet traitant la haute résolution.
Grâce aux connexions à résolution croisée, les fonctionnalités et les paramètres peuvent être partagés entre des UNets de différentes tailles.
La formation MDM est un processus progressif.
Bien que la modélisation soit conjointe, le processus d’apprentissage ne commence pas avec la haute résolution, mais augmente progressivement à partir de la basse résolution.
Cela permet d’éviter l’énorme quantité de calcul et permet le pré-entraînement de l’UNet basse résolution pour accélérer le processus d’apprentissage haute résolution.
Au cours du processus d’apprentissage, des données d’apprentissage à haute résolution sont progressivement ajoutées au processus global, afin que le modèle puisse s’adapter à la résolution croissante et passer en douceur au processus final à haute résolution.
Cependant, dans l’ensemble, après l’ajout progressif de processus à haute résolution, la formation MDM reste un processus conjoint de bout en bout.
Dans l’entraînement conjoint à différentes résolutions, la fonction de perte sur plusieurs résolutions participe à la mise à jour des paramètres ensemble, évitant ainsi l’accumulation d’erreurs causées par l’entraînement en plusieurs étapes.
Chaque résolution a la perte de reconstruction correspondante de l’élément de données, et la perte de différentes résolutions est pondérée et fusionnée, parmi lesquelles la perte de faible résolution est plus grande afin d’assurer la qualité de la génération.
Dans la phase d’inférence, le MDM adopte également une combinaison de stratégies parallèles et progressives.
En outre, MDM utilise également un modèle de classification d’images (CFG) pré-entraîné pour guider les échantillons générés afin d’optimiser dans une direction plus raisonnable, et ajouter du bruit aux échantillons à basse résolution pour les rendre plus proches de la distribution des échantillons à haute résolution.
Alors, quelle est l’efficacité du MDM ?
Moins de paramètres pour correspondre à SOTA
En termes d’images, sur les jeux de données ImageNet et CC12M, le FID de MDM (plus la valeur est faible, mieux c’est) et CLIP sont nettement plus performants que les modèles de diffusion ordinaires.
FID est utilisé pour évaluer la qualité de l’image elle-même, et CLIP décrit le degré de correspondance entre l’image et l’instruction textuelle.
Par rapport aux modèles SOTA tels que DALL E et IMAGEN, les performances du MDM sont également proches, mais les paramètres d’entraînement du MDM sont bien inférieurs à ceux de ces modèles.
Non seulement il est meilleur que les modèles de diffusion ordinaires, mais le MDM surpasse également les autres modèles de diffusion en cascade.
Les résultats des expériences d’ablation montrent que plus il y a d’étapes d’entraînement à basse résolution, plus l’amélioration de l’effet MDM est évidente. D’autre part, plus il y a de niveaux d’imbrication, moins il faut d’étapes d’apprentissage pour obtenir le même score CLIP.
Le choix des paramètres CFG est le résultat d’un compromis entre FID et CLIP après de multiples tests (score CLIP élevé par rapport à l’augmentation de la résistance CFG).
Adresse papier :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Avec le modèle de diffusion « poupée matriochka » d’Apple, le nombre d’étapes d’entraînement est réduit de 70% !
Source d’origine : Qubits
Une étude récente d’Apple a considérablement amélioré les performances des modèles de diffusion sur les images haute résolution.
En utilisant cette méthode, le nombre d’étapes d’apprentissage est réduit de plus de soixante-dix pour cent pour la même résolution d’image.
Avec une résolution de 1024 ×1024, la qualité d’image est directement complète et les détails sont clairement visibles.
Tout comme une vraie poupée matriochka, le MDM imbrique les processus basse résolution dans les processus haute résolution, et il est imbriqué dans plusieurs couches.
Les processus de diffusion haute et basse résolution sont effectués simultanément, ce qui réduit considérablement la consommation de ressources du modèle de diffusion traditionnel dans le processus haute résolution.
De plus, le MDM adopte une formation de bout en bout, ne s’appuie pas sur des ensembles de données spécifiques et des modèles pré-entraînés, tout en garantissant la qualité de la génération tout en accélérant, et est flexible à utiliser.
Combinaison holistique et progressive
Ces données de différentes résolutions sont ensuite utilisées pour la modélisation conjointe de l’UNet, avec un petit UNet traitant la basse résolution et l’imbrication dans un grand UNet traitant la haute résolution.
Grâce aux connexions à résolution croisée, les fonctionnalités et les paramètres peuvent être partagés entre des UNets de différentes tailles.
Bien que la modélisation soit conjointe, le processus d’apprentissage ne commence pas avec la haute résolution, mais augmente progressivement à partir de la basse résolution.
Cela permet d’éviter l’énorme quantité de calcul et permet le pré-entraînement de l’UNet basse résolution pour accélérer le processus d’apprentissage haute résolution.
Au cours du processus d’apprentissage, des données d’apprentissage à haute résolution sont progressivement ajoutées au processus global, afin que le modèle puisse s’adapter à la résolution croissante et passer en douceur au processus final à haute résolution.
Dans l’entraînement conjoint à différentes résolutions, la fonction de perte sur plusieurs résolutions participe à la mise à jour des paramètres ensemble, évitant ainsi l’accumulation d’erreurs causées par l’entraînement en plusieurs étapes.
Chaque résolution a la perte de reconstruction correspondante de l’élément de données, et la perte de différentes résolutions est pondérée et fusionnée, parmi lesquelles la perte de faible résolution est plus grande afin d’assurer la qualité de la génération.
Dans la phase d’inférence, le MDM adopte également une combinaison de stratégies parallèles et progressives.
En outre, MDM utilise également un modèle de classification d’images (CFG) pré-entraîné pour guider les échantillons générés afin d’optimiser dans une direction plus raisonnable, et ajouter du bruit aux échantillons à basse résolution pour les rendre plus proches de la distribution des échantillons à haute résolution.
Alors, quelle est l’efficacité du MDM ?
Moins de paramètres pour correspondre à SOTA
En termes d’images, sur les jeux de données ImageNet et CC12M, le FID de MDM (plus la valeur est faible, mieux c’est) et CLIP sont nettement plus performants que les modèles de diffusion ordinaires.
FID est utilisé pour évaluer la qualité de l’image elle-même, et CLIP décrit le degré de correspondance entre l’image et l’instruction textuelle.