Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu
Apple tarafından yakın zamanda yapılan bir araştırma, yüksek çözünürlüklü görüntülerde difüzyon modellerinin performansını önemli ölçüde artırdı.
Bu yöntem kullanılarak, aynı çözünürlükteki görüntü için eğitim adımlarının sayısı yüzde yetmişten fazla azaltılır.
1024 ×1024 çözünürlükte, görüntü kalitesi doğrudan doludur ve ayrıntılar açıkça görülebilir.
Apple bu başarıyı MDM olarak adlandırdı, DM Difüzyon Modeli'nin kısaltmasıdır ve ilk M Matruşka'yı temsil eder.
Tıpkı gerçek bir matruşka bebeği gibi, MDM de düşük çözünürlüklü işlemleri yüksek çözünürlüklü işlemlere yerleştirir ve birden çok katmanda iç içe geçmiştir.
Yüksek ve düşük çözünürlüklü difüzyon işlemleri aynı anda gerçekleştirilir, bu da yüksek çözünürlüklü proseste geleneksel difüzyon modelinin kaynak tüketimini büyük ölçüde azaltır.
256×256 çözünürlüğe sahip görüntüler için, parti boyutu 1024 olan bir ortamda, geleneksel difüzyon modelinin 1,5 milyon adım eğitmesi gerekirken, MDM'nin yalnızca 390.000'e ihtiyacı vardır ve bu da %70'ten fazla azaltılır.
Ek olarak, MDM uçtan uca eğitimi benimser, belirli veri kümelerine ve önceden eğitilmiş modellere dayanmaz ve yine de hızlanırken üretim kalitesini sağlar ve kullanımı esnektir.
Sadece yüksek çözünürlüklü görüntüler çizilmekle kalmaz, aynı zamanda 16×256² videolar da oluşturulabilir.
Bazı netizenler, Apple'ın nihayet metni görüntüye bağladığını söyledi.
Peki, MDM'nin "matruşka bebek" teknolojisi bunu nasıl yapıyor?
Bütünsel ve aşamalı kombinasyon
Eğitime başlamadan önce, verilerin önceden işlenmesi gerekir ve farklı çözünürlük sürümleri elde etmek için yüksek çözünürlüklü görüntüler belirli bir algoritma ile yeniden örneklenir.
Farklı çözünürlüklerdeki bu veriler daha sonra küçük UNet işleme düşük çözünürlük ve büyük UNet işleme yüksek çözünürlüğü ile ortak UNet modelleme için kullanılır.
Çapraz çözünürlüklü bağlantılarla, özellikler ve parametreler farklı boyutlardaki UNet'ler arasında paylaşılabilir.
MDM eğitimi aşamalı bir süreçtir.
Modelleme ortak olmasına rağmen, eğitim süreci yüksek çözünürlükle başlamaz, ancak yavaş yavaş düşük çözünürlükten ölçeklenir.
Bu, büyük miktarda hesaplamayı önler ve yüksek çözünürlüklü eğitim sürecini hızlandırmak için düşük çözünürlüklü UNet'in ön eğitimine izin verir.
Eğitim sürecinde, daha yüksek çözünürlüklü eğitim verileri kademeli olarak genel sürece eklenir, böylece model kademeli olarak artan çözünürlüğe uyum sağlayabilir ve nihai yüksek çözünürlüklü sürece sorunsuz bir şekilde geçiş yapabilir.
Bununla birlikte, genel olarak, yüksek çözünürlüklü süreçlerin kademeli olarak eklenmesinden sonra, MDM eğitimi hala uçtan uca ortak bir süreçtir.
Farklı çözünürlüklerdeki ortak eğitimde, birden fazla çözünürlükteki kayıp işlevi, çok aşamalı eğitimin neden olduğu hataların birikmesini önleyerek parametre güncellemesine birlikte katılır.
Her çözünürlük, veri öğesinin karşılık gelen yeniden yapılandırma kaybına sahiptir ve farklı çözünürlüklerin kaybı, üretim kalitesini sağlamak için düşük çözünürlük kaybı ağırlığının daha büyük olduğu ağırlıklandırılır ve birleştirilir.
Çıkarım aşamasında, MDM ayrıca paralel ve aşamalı stratejilerin bir kombinasyonunu benimser.
Buna ek olarak, MDM, oluşturulan örnekleri daha makul bir yönde optimize etmek için yönlendirmek ve düşük çözünürlüklü örnekleri yüksek çözünürlüklü örneklerin dağılımına daha yakın hale getirmek için gürültü eklemek için önceden eğitilmiş bir görüntü sınıflandırma modeli (CFG) kullanır.
Peki, MDM ne kadar etkili?
SOTA ile eşleşecek daha az parametre
Görüntüler açısından, ImageNet ve CC12M veri kümelerinde, MDM'nin FID'si (değer ne kadar düşükse o kadar iyidir) ve CLIP, sıradan difüzyon modellerinden önemli ölçüde daha iyi performans gösterir.
FID, görüntünün kalitesini değerlendirmek için kullanılır ve CLIP, görüntü ile metin talimatı arasındaki eşleşme derecesini tanımlar.
DALL E ve IMAGEN gibi SOTA modelleriyle karşılaştırıldığında, MDM'nin performansı da yakındır, ancak MDM'nin eğitim parametreleri bu modellerden çok daha azdır.
Sadece sıradan difüzyon modellerinden daha iyi olmakla kalmaz, aynı zamanda MDM diğer kademeli difüzyon modellerinden de daha iyi performans gösterir.
Ablasyon deneylerinin sonuçları, düşük çözünürlüklü eğitimin ne kadar çok adımı olursa, MDM efekt geliştirmesinin o kadar belirgin olduğunu göstermektedir. Öte yandan, ne kadar çok iç içe geçme düzeyi olursa, aynı CLIP puanını elde etmek için o kadar az eğitim adımı gerekir.
CFG parametrelerinin seçimi, birden fazla testten sonra FID ve CLIP arasındaki bir değiş tokuşun sonucudur (artan CFG gücüne göre yüksek CLIP puanı).
Bildiri Adresi:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Apple'ın "matruşka bebek" difüzyon modeli, eğitim adımlarının sayısı% 70 oranında azaltıldı!
Orijinal kaynak: Qubits
Apple tarafından yakın zamanda yapılan bir araştırma, yüksek çözünürlüklü görüntülerde difüzyon modellerinin performansını önemli ölçüde artırdı.
Bu yöntem kullanılarak, aynı çözünürlükteki görüntü için eğitim adımlarının sayısı yüzde yetmişten fazla azaltılır.
1024 ×1024 çözünürlükte, görüntü kalitesi doğrudan doludur ve ayrıntılar açıkça görülebilir.
Tıpkı gerçek bir matruşka bebeği gibi, MDM de düşük çözünürlüklü işlemleri yüksek çözünürlüklü işlemlere yerleştirir ve birden çok katmanda iç içe geçmiştir.
Yüksek ve düşük çözünürlüklü difüzyon işlemleri aynı anda gerçekleştirilir, bu da yüksek çözünürlüklü proseste geleneksel difüzyon modelinin kaynak tüketimini büyük ölçüde azaltır.
Ek olarak, MDM uçtan uca eğitimi benimser, belirli veri kümelerine ve önceden eğitilmiş modellere dayanmaz ve yine de hızlanırken üretim kalitesini sağlar ve kullanımı esnektir.
Bütünsel ve aşamalı kombinasyon
Farklı çözünürlüklerdeki bu veriler daha sonra küçük UNet işleme düşük çözünürlük ve büyük UNet işleme yüksek çözünürlüğü ile ortak UNet modelleme için kullanılır.
Çapraz çözünürlüklü bağlantılarla, özellikler ve parametreler farklı boyutlardaki UNet'ler arasında paylaşılabilir.
Modelleme ortak olmasına rağmen, eğitim süreci yüksek çözünürlükle başlamaz, ancak yavaş yavaş düşük çözünürlükten ölçeklenir.
Bu, büyük miktarda hesaplamayı önler ve yüksek çözünürlüklü eğitim sürecini hızlandırmak için düşük çözünürlüklü UNet'in ön eğitimine izin verir.
Eğitim sürecinde, daha yüksek çözünürlüklü eğitim verileri kademeli olarak genel sürece eklenir, böylece model kademeli olarak artan çözünürlüğe uyum sağlayabilir ve nihai yüksek çözünürlüklü sürece sorunsuz bir şekilde geçiş yapabilir.
Farklı çözünürlüklerdeki ortak eğitimde, birden fazla çözünürlükteki kayıp işlevi, çok aşamalı eğitimin neden olduğu hataların birikmesini önleyerek parametre güncellemesine birlikte katılır.
Her çözünürlük, veri öğesinin karşılık gelen yeniden yapılandırma kaybına sahiptir ve farklı çözünürlüklerin kaybı, üretim kalitesini sağlamak için düşük çözünürlük kaybı ağırlığının daha büyük olduğu ağırlıklandırılır ve birleştirilir.
Çıkarım aşamasında, MDM ayrıca paralel ve aşamalı stratejilerin bir kombinasyonunu benimser.
Buna ek olarak, MDM, oluşturulan örnekleri daha makul bir yönde optimize etmek için yönlendirmek ve düşük çözünürlüklü örnekleri yüksek çözünürlüklü örneklerin dağılımına daha yakın hale getirmek için gürültü eklemek için önceden eğitilmiş bir görüntü sınıflandırma modeli (CFG) kullanır.
Peki, MDM ne kadar etkili?
SOTA ile eşleşecek daha az parametre
Görüntüler açısından, ImageNet ve CC12M veri kümelerinde, MDM'nin FID'si (değer ne kadar düşükse o kadar iyidir) ve CLIP, sıradan difüzyon modellerinden önemli ölçüde daha iyi performans gösterir.
FID, görüntünün kalitesini değerlendirmek için kullanılır ve CLIP, görüntü ile metin talimatı arasındaki eşleşme derecesini tanımlar.