Google a lancé Lumiere, un modèle de génération vidéo spécialement conçu pour convertir du texte en vidéo. En suréchantillonnant et en sous-échantillonnant dans les dimensions spatiales et temporelles critiques, et en tirant parti d’un modèle de diffusion texte-image pré-entraîné, Lumiere permet au modèle de générer directement des vidéos basse résolution à fréquence d’images complète et de les traiter à plusieurs échelles spatio-temporelles. Selon les rapports, la vidéo de démonstration du modèle est de très haute qualité, et l’amplitude de mouvement et la cohérence sont également très bonnes.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Google lance Lumiere, un modèle de génération vidéo qui offre de bonnes performances en termes d’amplitude et de cohérence
Google a lancé Lumiere, un modèle de génération vidéo spécialement conçu pour convertir du texte en vidéo. En suréchantillonnant et en sous-échantillonnant dans les dimensions spatiales et temporelles critiques, et en tirant parti d’un modèle de diffusion texte-image pré-entraîné, Lumiere permet au modèle de générer directement des vidéos basse résolution à fréquence d’images complète et de les traiter à plusieurs échelles spatio-temporelles. Selon les rapports, la vidéo de démonstration du modèle est de très haute qualité, et l’amplitude de mouvement et la cohérence sont également très bonnes.