Contre toute attente, OpenAI a profité de la « concurrence » Stable Diffusion.
Lors du très chaud « AI Spring Festival Gala », OpenAI a ouvert deux œuvres en une seule fois, dont l’une est Consistency Decoder, qui est spécifiquement pour le modèle VAE de SD.
Il permet une génération d’images de meilleure qualité et plus stable, telles que des visages multiples, des images avec du texte et un contrôle de ligne.
Le blogueur Big V analyse que ce décodeur devrait être Dall· E 3 avec le même modèle, sur la page du projet GitHub, OpenAI fournit également Dall· E 3 Thèse.
La version qu’il prend spécifiquement en charge est Stable Diffusion 1.4/1.5.
Il n’y a qu’un seul exemple sur la page du projet, et la formation spécifique n’est pas écrite, qui est dite « open source par des gens qui ne parlent pas beaucoup ».
Vous pouvez simplement le charger et l’utiliser.
Et ce décodeur cohérent a beaucoup à offrir.
Il provient des modèles de cohérence proposés par Ilya, le co-créateur et scientifique en chef d’OpenAI, et Song Yang, une étoile montante chinoise d’OpenAI.
Au cours du premier semestre de l’année, lorsque ce modèle a été open-source, il a provoqué un choc dans l’industrie et a été classé comme le « modèle de diffusion finale ».
Il n’y a pas si longtemps, Song Yang et al. ont également optimisé la méthode d’entraînement du modèle, ce qui peut encore améliorer la qualité de la génération d’images.
Un autre grand open source de la journée des développeurs est le modèle vocal Whisper 3. C’est aussi l’œuvre de légendes, Alec Radford ayant joué un rôle important dans la construction de la série GPT.
Les internautes ne peuvent s’empêcher de soupirer : j’aime toujours voir OpenAI open source, et j’ai hâte de continuer à ouvrir plus de modèles.
Le modèle de cohérence achève la réévolution
Commençons par la première version des modèles de cohérence.
Il est conçu pour résoudre le problème de la lenteur de la génération d’images causée par l’itération progressive des modèles de diffusion. Il ne faut que 3,5 secondes pour générer 64 images d’environ 256×256.
Il présente deux avantages principaux par rapport au modèle de diffusion :
Tout d’abord, des échantillons d’images de haute qualité peuvent être générés directement sans entraînement contradictoire.
Deuxièmement, par rapport au modèle de diffusion, qui peut nécessiter des centaines, voire des milliers d’itérations, le modèle de cohérence n’a besoin que d’une ou deux étapes pour effectuer une variété de tâches d’image.
La coloration, le débruitage, la super-résolution, etc., peuvent tous être effectués en quelques étapes, sans qu’il soit nécessaire de suivre une formation explicite pour ces tâches. (Bien sûr, l’effet de génération est meilleur si l’apprentissage se fait avec moins de coups)
En principe, le modèle de cohérence mappe directement le bruit aléatoire à des images complexes, et la sortie est le même point sur la même trajectoire, de sorte qu’il réalise une génération en une seule étape.
L’article propose deux méthodes d’apprentissage, l’une est basée sur la distillation de cohérence, en utilisant un modèle de diffusion pré-entraîné pour générer des paires de données adjacentes, et l’autre sur l’entraînement d’un modèle cohérent en minimisant la différence entre les sorties du modèle.
Une autre approche est l’apprentissage indépendant, où le modèle cohérent est entraîné en tant que modèle généré indépendamment.
Les résultats expérimentaux montrent que le modèle de consistance est supérieur aux techniques de distillation existantes, telles que la distillation progressive, en termes d’échantillonnage en une étape et en basse étape.
Lorsqu’il est entraîné en tant que modèle génératif autonome, un modèle cohérent peut être comparé à des modèles génératifs non antagonistes en une étape existants dans des agrégats de référence standard, tels que CIFAR-10, ImageNet 64×64 et LSUN 256×256.
La deuxième édition de l’article, publiée six mois plus tard, optimise la méthode d’entraînement.
En optimisant la fonction de poids, l’intégration du bruit et la décrochage, le modèle cohérent peut atteindre une bonne qualité de génération sans s’appuyer sur les caractéristiques apprises.
Il améliore le choix de la fonction de poids de sorte qu’il diminue à mesure que le niveau de bruit augmente, ce qui se traduit par un plus grand poids de la perte de cohérence à des niveaux de bruit plus faibles, améliorant ainsi la qualité de l’échantillon.
Dans le même temps, la sensibilité de la couche d’incorporation du bruit est ajustée pour réduire la sensibilité aux petites différences de bruit, ce qui contribue à améliorer la stabilité de l’entraînement continu à la cohérence temporelle.
On constate que la qualité de l’image peut être encore améliorée en utilisant une grande décrochage, en supprimant l’EMA du réseau de l’enseignant et en remplaçant la fonction de perte de Pseudo-Huber par la distance de caractéristique apprise (telle que LPIPS) dans le modèle de consensus.
Une dernière chose
Pour en revenir au dernier décodeur open-source, la première vague d’expérience mesurée est arrivée.
À l’heure actuelle, certains des effets observés ne sont pas évidents et de nombreuses personnes signalent que la vitesse de fonctionnement est lente.
Mais il s’agit encore du test le plus précoce, et il pourrait y avoir d’autres améliorations à l’avenir.
Il convient de mentionner que Song Yang, qui a dirigé le lancement du modèle de cohérence, est jeune mais a été classé comme un OG (vétéran) dans le cercle du modèle de diffusion.
△De Jim Fan, scientifique de Nvidia AI, sur Twitter
Cette année, avec le modèle de cohérence, Song Yang est également célèbre. Ce grand gaillard est allé à l’Université Tsinghua à l’âge de 16 ans en tant que meilleur étudiant en sciences, et d’autres histoires à son sujet peuvent être racontées : L’étoile montante populaire d’OpenAI Song Yang : La dernière recherche a reçu le prix « End Diffusion Model », et il est allé à l’Université Tsinghua à l’âge de 16 ans
Adresse:
[1]
[2]
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
OpenAI sauve une diffusion stable ! E3 avec le même décodeur, d’Ilya Song Yang et ainsi de suite
La source : Dimension quantique
Lors du très chaud « AI Spring Festival Gala », OpenAI a ouvert deux œuvres en une seule fois, dont l’une est Consistency Decoder, qui est spécifiquement pour le modèle VAE de SD.
Il permet une génération d’images de meilleure qualité et plus stable, telles que des visages multiples, des images avec du texte et un contrôle de ligne.
Il n’y a qu’un seul exemple sur la page du projet, et la formation spécifique n’est pas écrite, qui est dite « open source par des gens qui ne parlent pas beaucoup ».
Il provient des modèles de cohérence proposés par Ilya, le co-créateur et scientifique en chef d’OpenAI, et Song Yang, une étoile montante chinoise d’OpenAI.
Au cours du premier semestre de l’année, lorsque ce modèle a été open-source, il a provoqué un choc dans l’industrie et a été classé comme le « modèle de diffusion finale ».
Il n’y a pas si longtemps, Song Yang et al. ont également optimisé la méthode d’entraînement du modèle, ce qui peut encore améliorer la qualité de la génération d’images.
Les internautes ne peuvent s’empêcher de soupirer : j’aime toujours voir OpenAI open source, et j’ai hâte de continuer à ouvrir plus de modèles.
Le modèle de cohérence achève la réévolution
Commençons par la première version des modèles de cohérence.
Il est conçu pour résoudre le problème de la lenteur de la génération d’images causée par l’itération progressive des modèles de diffusion. Il ne faut que 3,5 secondes pour générer 64 images d’environ 256×256.
Tout d’abord, des échantillons d’images de haute qualité peuvent être générés directement sans entraînement contradictoire.
Deuxièmement, par rapport au modèle de diffusion, qui peut nécessiter des centaines, voire des milliers d’itérations, le modèle de cohérence n’a besoin que d’une ou deux étapes pour effectuer une variété de tâches d’image.
La coloration, le débruitage, la super-résolution, etc., peuvent tous être effectués en quelques étapes, sans qu’il soit nécessaire de suivre une formation explicite pour ces tâches. (Bien sûr, l’effet de génération est meilleur si l’apprentissage se fait avec moins de coups)
En principe, le modèle de cohérence mappe directement le bruit aléatoire à des images complexes, et la sortie est le même point sur la même trajectoire, de sorte qu’il réalise une génération en une seule étape.
Une autre approche est l’apprentissage indépendant, où le modèle cohérent est entraîné en tant que modèle généré indépendamment.
Les résultats expérimentaux montrent que le modèle de consistance est supérieur aux techniques de distillation existantes, telles que la distillation progressive, en termes d’échantillonnage en une étape et en basse étape.
Lorsqu’il est entraîné en tant que modèle génératif autonome, un modèle cohérent peut être comparé à des modèles génératifs non antagonistes en une étape existants dans des agrégats de référence standard, tels que CIFAR-10, ImageNet 64×64 et LSUN 256×256.
En optimisant la fonction de poids, l’intégration du bruit et la décrochage, le modèle cohérent peut atteindre une bonne qualité de génération sans s’appuyer sur les caractéristiques apprises.
Il améliore le choix de la fonction de poids de sorte qu’il diminue à mesure que le niveau de bruit augmente, ce qui se traduit par un plus grand poids de la perte de cohérence à des niveaux de bruit plus faibles, améliorant ainsi la qualité de l’échantillon.
Dans le même temps, la sensibilité de la couche d’incorporation du bruit est ajustée pour réduire la sensibilité aux petites différences de bruit, ce qui contribue à améliorer la stabilité de l’entraînement continu à la cohérence temporelle.
On constate que la qualité de l’image peut être encore améliorée en utilisant une grande décrochage, en supprimant l’EMA du réseau de l’enseignant et en remplaçant la fonction de perte de Pseudo-Huber par la distance de caractéristique apprise (telle que LPIPS) dans le modèle de consensus.
Une dernière chose
Pour en revenir au dernier décodeur open-source, la première vague d’expérience mesurée est arrivée.
À l’heure actuelle, certains des effets observés ne sont pas évidents et de nombreuses personnes signalent que la vitesse de fonctionnement est lente.
Mais il s’agit encore du test le plus précoce, et il pourrait y avoir d’autres améliorations à l’avenir.
Cette année, avec le modèle de cohérence, Song Yang est également célèbre. Ce grand gaillard est allé à l’Université Tsinghua à l’âge de 16 ans en tant que meilleur étudiant en sciences, et d’autres histoires à son sujet peuvent être racontées : L’étoile montante populaire d’OpenAI Song Yang : La dernière recherche a reçu le prix « End Diffusion Model », et il est allé à l’Université Tsinghua à l’âge de 16 ans
Adresse:
[1]
[2]