Sebuah studi baru-baru ini oleh Apple telah secara dramatis meningkatkan kinerja model difusi pada gambar resolusi tinggi.
Dengan menggunakan metode ini, jumlah langkah pelatihan berkurang lebih dari tujuh puluh persen untuk gambar resolusi yang sama.
Pada resolusi 1024 ×1024, kualitas gambar langsung penuh, dan detailnya terlihat jelas.
Apple menamai pencapaian ini MDM, DM adalah kependekan dari Diffusion Model, dan M pertama adalah singkatan dari Matryoshka.
Sama seperti boneka matryoshka asli, MDM bersarang proses resolusi rendah dalam proses resolusi tinggi, dan bersarang di beberapa lapisan.
Proses difusi resolusi tinggi dan rendah dilakukan secara bersamaan, yang sangat mengurangi konsumsi sumber daya model difusi tradisional dalam proses resolusi tinggi.
Untuk gambar dengan resolusi 256×256, di lingkungan dengan ukuran batch 1024, model difusi tradisional perlu melatih 1,5 juta langkah, sedangkan MDM hanya membutuhkan 390.000, yang berkurang lebih dari 70%.
Selain itu, MDM mengadopsi pelatihan end-to-end, tidak bergantung pada kumpulan data spesifik dan model yang telah dilatih sebelumnya, dan tetap memastikan kualitas pembangkitan sambil mempercepat, dan fleksibel untuk digunakan.
Tidak hanya gambar resolusi tinggi yang dapat digambar, tetapi video 16×256² juga dapat dikomposisikan.
Beberapa netizen berkomentar bahwa Apple akhirnya menghubungkan teks tersebut dengan gambar tersebut.
Jadi, bagaimana teknologi "boneka matryoshka" MDM melakukannya?
Kombinasi holistik dan progresif
Sebelum memulai pelatihan, data perlu diproses terlebih dahulu, dan gambar resolusi tinggi akan diambil sampelnya kembali dengan algoritma tertentu untuk mendapatkan versi resolusi yang berbeda.
Data dengan resolusi yang berbeda ini kemudian digunakan untuk pemodelan UNet bersama, dengan UNet kecil memproses resolusi rendah dan bersarang ke dalam UNet besar yang memproses resolusi tinggi.
Dengan koneksi resolusi silang, fitur dan parameter dapat dibagi antara UNet dengan ukuran berbeda.
Pelatihan MDM adalah proses bertahap.
Meskipun pemodelan bersama, proses pelatihan tidak dimulai dengan resolusi tinggi, tetapi secara bertahap ditingkatkan dari resolusi rendah.
Ini menghindari sejumlah besar perhitungan dan memungkinkan pra-pelatihan UNet resolusi rendah untuk mempercepat proses pelatihan resolusi tinggi.
Selama proses pelatihan, data pelatihan resolusi tinggi secara bertahap ditambahkan ke keseluruhan proses, sehingga model dapat beradaptasi dengan resolusi yang semakin meningkat dan transisi yang lancar ke proses resolusi tinggi akhir.
Namun, secara keseluruhan, setelah penambahan bertahap proses resolusi tinggi, pelatihan MDM masih merupakan proses bersama ujung ke ujung.
Dalam pelatihan bersama pada resolusi yang berbeda, fungsi kerugian pada beberapa resolusi berpartisipasi dalam pembaruan parameter bersama-sama, menghindari akumulasi kesalahan yang disebabkan oleh pelatihan multi-tahap.
Setiap resolusi memiliki kehilangan rekonstruksi yang sesuai dari item data, dan hilangnya resolusi yang berbeda ditimbang dan digabungkan, di antaranya bobot kehilangan resolusi rendah lebih besar untuk memastikan kualitas generasi.
Pada fase inferensi, MDM juga mengadopsi kombinasi strategi paralel dan progresif.
Selain itu, MDM juga menggunakan model klasifikasi gambar pra-terlatih (CFG) untuk memandu sampel yang dihasilkan untuk mengoptimalkan ke arah yang lebih masuk akal, dan menambahkan noise ke sampel resolusi rendah untuk membuatnya lebih dekat dengan distribusi sampel resolusi tinggi.
Jadi, seberapa efektif MDM?
Lebih sedikit parameter untuk mencocokkan SOTA
Dalam hal gambar, pada dataset ImageNet dan CC12M, FID MDM (semakin rendah nilainya, semakin baik) dan CLIP berkinerja jauh lebih baik daripada model difusi biasa.
FID digunakan untuk mengevaluasi kualitas gambar itu sendiri, dan CLIP menggambarkan tingkat kecocokan antara gambar dan instruksi teks.
Dibandingkan dengan model SOTA seperti DALL E dan IMAGEN, kinerja MDM juga dekat, tetapi parameter pelatihan MDM jauh lebih sedikit daripada model ini.
Tidak hanya lebih baik daripada model difusi biasa, MDM juga mengungguli model difusi kaskade lainnya.
Hasil percobaan ablasi menunjukkan bahwa semakin banyak langkah pelatihan resolusi rendah, semakin jelas peningkatan efek MDM. Di sisi lain, semakin banyak level bersarang, semakin sedikit langkah pelatihan yang diperlukan untuk mencapai skor CLIP yang sama.
Pilihan parameter CFG adalah hasil trade-off antara FID dan CLIP setelah beberapa tes (skor CLIP tinggi relatif terhadap peningkatan kekuatan CFG).
Alamat kertas:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Model difusi "boneka matryoshka" Apple, jumlah langkah pelatihan berkurang 70%!
Sumber asli: Qubits
Sebuah studi baru-baru ini oleh Apple telah secara dramatis meningkatkan kinerja model difusi pada gambar resolusi tinggi.
Dengan menggunakan metode ini, jumlah langkah pelatihan berkurang lebih dari tujuh puluh persen untuk gambar resolusi yang sama.
Pada resolusi 1024 ×1024, kualitas gambar langsung penuh, dan detailnya terlihat jelas.
Sama seperti boneka matryoshka asli, MDM bersarang proses resolusi rendah dalam proses resolusi tinggi, dan bersarang di beberapa lapisan.
Proses difusi resolusi tinggi dan rendah dilakukan secara bersamaan, yang sangat mengurangi konsumsi sumber daya model difusi tradisional dalam proses resolusi tinggi.
Selain itu, MDM mengadopsi pelatihan end-to-end, tidak bergantung pada kumpulan data spesifik dan model yang telah dilatih sebelumnya, dan tetap memastikan kualitas pembangkitan sambil mempercepat, dan fleksibel untuk digunakan.
Kombinasi holistik dan progresif
Data dengan resolusi yang berbeda ini kemudian digunakan untuk pemodelan UNet bersama, dengan UNet kecil memproses resolusi rendah dan bersarang ke dalam UNet besar yang memproses resolusi tinggi.
Dengan koneksi resolusi silang, fitur dan parameter dapat dibagi antara UNet dengan ukuran berbeda.
Meskipun pemodelan bersama, proses pelatihan tidak dimulai dengan resolusi tinggi, tetapi secara bertahap ditingkatkan dari resolusi rendah.
Ini menghindari sejumlah besar perhitungan dan memungkinkan pra-pelatihan UNet resolusi rendah untuk mempercepat proses pelatihan resolusi tinggi.
Selama proses pelatihan, data pelatihan resolusi tinggi secara bertahap ditambahkan ke keseluruhan proses, sehingga model dapat beradaptasi dengan resolusi yang semakin meningkat dan transisi yang lancar ke proses resolusi tinggi akhir.
Dalam pelatihan bersama pada resolusi yang berbeda, fungsi kerugian pada beberapa resolusi berpartisipasi dalam pembaruan parameter bersama-sama, menghindari akumulasi kesalahan yang disebabkan oleh pelatihan multi-tahap.
Setiap resolusi memiliki kehilangan rekonstruksi yang sesuai dari item data, dan hilangnya resolusi yang berbeda ditimbang dan digabungkan, di antaranya bobot kehilangan resolusi rendah lebih besar untuk memastikan kualitas generasi.
Pada fase inferensi, MDM juga mengadopsi kombinasi strategi paralel dan progresif.
Selain itu, MDM juga menggunakan model klasifikasi gambar pra-terlatih (CFG) untuk memandu sampel yang dihasilkan untuk mengoptimalkan ke arah yang lebih masuk akal, dan menambahkan noise ke sampel resolusi rendah untuk membuatnya lebih dekat dengan distribusi sampel resolusi tinggi.
Jadi, seberapa efektif MDM?
Lebih sedikit parameter untuk mencocokkan SOTA
Dalam hal gambar, pada dataset ImageNet dan CC12M, FID MDM (semakin rendah nilainya, semakin baik) dan CLIP berkinerja jauh lebih baik daripada model difusi biasa.
FID digunakan untuk mengevaluasi kualitas gambar itu sendiri, dan CLIP menggambarkan tingkat kecocokan antara gambar dan instruksi teks.