Tanpa diduga, OpenAI memanfaatkan Difusi Stabil "kompetisi".
Pada "AI Spring Festival Gala" yang panas, OpenAI membuka dua karya sekaligus, salah satunya adalah Consistency Decoder, yang khusus untuk model VAE SD.
Ini memungkinkan kualitas yang lebih tinggi dan generasi gambar yang lebih stabil, seperti beberapa wajah, gambar dengan teks, dan kontrol garis.
Big V blogger menganalisis bahwa decoder ini harus Dall· E 3 dengan model yang sama, pada halaman proyek GitHub OpenAI juga menyediakan Dall· E 3 Skripsi.
Versi yang secara khusus didukungnya adalah Difusi Stabil 1.4/1.5.
Hanya ada satu contoh di halaman proyek, dan pelatihan khusus tidak ditulis, yang disebut "open source oleh orang-orang yang tidak banyak bicara".
Anda bisa memuat dan menggunakannya.
Dan decoder yang koheren ini memiliki banyak hal untuk ditawarkan.
Itu berasal dari Model Konsistensi yang diusulkan oleh Ilya, co-creator dan kepala ilmuwan OpenAI, dan Song Yang, bintang OpenAI China yang sedang naik daun.
Pada paruh pertama tahun ini, ketika model ini bersumber terbuka, itu menyebabkan kejutan di industri dan dinilai sebagai "model difusi akhir".
Belum lama ini, Song Yang dkk. juga mengoptimalkan metode pelatihan model, yang selanjutnya dapat meningkatkan kualitas pembuatan gambar.
Open source besar lainnya dari hari pengembang adalah model suara Whisper 3. Ini juga merupakan karya legenda, dengan Alec Radford memainkan peran penting dalam pembangunan seri GPT.
Netizen hanya bisa menghela nafas: Saya masih suka melihat OpenAI open source, dan saya berharap untuk terus membuka lebih banyak model.
Model Konsistensi Menyelesaikan Evolusi Ulang
Mari kita mulai dengan versi pertama dari Model Konsistensi.
Ini dirancang untuk memecahkan masalah pembuatan gambar lambat yang disebabkan oleh iterasi bertahap model difusi. Hanya membutuhkan waktu 3,5 detik untuk menghasilkan 64 gambar sekitar 256×256.
Ini memiliki dua keunggulan utama dibandingkan model difusi:
Pertama, sampel gambar berkualitas tinggi dapat dihasilkan secara langsung tanpa pelatihan permusuhan.
Kedua, dibandingkan dengan model difusi, yang mungkin memerlukan ratusan atau bahkan ribuan iterasi, model konsistensi hanya membutuhkan satu atau dua langkah untuk menyelesaikan berbagai tugas gambar.
Mewarnai, denoising, resolusi super, dll., Semuanya dapat dilakukan dalam beberapa langkah, tanpa perlu pelatihan eksplisit untuk tugas-tugas ini. (Tentu saja, efek generasi lebih baik jika pembelajaran dilakukan dengan lebih sedikit tembakan)
Pada prinsipnya, model konsistensi secara langsung memetakan noise acak ke gambar yang kompleks, dan outputnya adalah titik yang sama pada lintasan yang sama, sehingga mewujudkan generasi satu langkah.
Makalah ini mengusulkan dua metode pelatihan, satu didasarkan pada distilasi konsistensi, menggunakan model difusi pra-terlatih untuk menghasilkan pasangan data yang berdekatan, dan melatih model yang konsisten dengan meminimalkan perbedaan antara output model.
Pendekatan lain adalah pelatihan independen, di mana model yang konsisten dilatih sebagai model yang dihasilkan secara independen.
Hasil eksperimen menunjukkan bahwa model konsistensi lebih unggul daripada teknik distilasi yang ada, seperti distilasi progresif, dalam hal pengambilan sampel satu langkah dan langkah rendah.
Ketika dilatih sebagai model generatif yang berdiri sendiri, model yang konsisten dapat dibandingkan dengan model generatif nonadversarial satu langkah yang ada dalam agregat benchmark standar, seperti CIFAR-10, ImageNet 64×64, dan LSUN 256×256.
Edisi kedua makalah, diterbitkan setengah tahun kemudian, mengoptimalkan metode pelatihan.
Dengan mengoptimalkan fungsi berat, penyematan kebisingan, dan putus sekolah, model yang konsisten dapat mencapai kualitas generasi yang baik tanpa bergantung pada fitur yang dipelajari.
Ini meningkatkan pilihan fungsi berat sehingga berkurang saat tingkat kebisingan meningkat, yang menghasilkan bobot yang lebih besar dari hilangnya konsistensi pada tingkat kebisingan yang lebih kecil, sehingga meningkatkan kualitas sampel.
Pada saat yang sama, sensitivitas lapisan penyematan kebisingan disesuaikan untuk mengurangi sensitivitas terhadap perbedaan kebisingan kecil, yang membantu meningkatkan stabilitas pelatihan konsistensi waktu berkelanjutan.
Ditemukan bahwa kualitas gambar dapat lebih ditingkatkan dengan menggunakan dropout besar, menghapus EMA dari jaringan guru, dan mengganti fungsi kehilangan Pseudo-Huber dengan jarak fitur yang dipelajari (seperti LPIPS) dalam model konsensus.
Satu Hal Lagi
Kembali ke decoder open-source terbaru, gelombang pertama pengalaman terukur telah datang.
Saat ini, beberapa efek yang terlihat tidak jelas, dan banyak orang melaporkan bahwa kecepatan larinya lambat.
Tapi ini masih tes paling awal, dan mungkin ada lebih banyak perbaikan di masa depan.
Perlu disebutkan bahwa Song Yang, yang memimpin peluncuran model konsistensi, masih muda tetapi telah dinilai sebagai OG (veteran) dalam lingkaran model difusi.
△Dari ilmuwan AI Nvidia Jim Fan Twitter
Tahun ini, dengan model konsistensi, Song Yang juga terkenal. Pria besar ini pergi ke Universitas Tsinghua pada usia 16 tahun sebagai mahasiswa sains terbaik, dan lebih banyak cerita tentang dia dapat ditusuk: Bintang populer OpenAI Song Yang: Penelitian terbaru dianugerahi "Model Difusi Akhir", dan dia pergi ke Universitas Tsinghua pada usia 16 tahun
Alamat:
[1]
[2]
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
OpenAI Menghemat Difusi Stabil! E3 dengan decoder yang sama, dari Ilya Song Yang dan seterusnya
Sumber: Quantum Dimension
Pada "AI Spring Festival Gala" yang panas, OpenAI membuka dua karya sekaligus, salah satunya adalah Consistency Decoder, yang khusus untuk model VAE SD.
Ini memungkinkan kualitas yang lebih tinggi dan generasi gambar yang lebih stabil, seperti beberapa wajah, gambar dengan teks, dan kontrol garis.
Hanya ada satu contoh di halaman proyek, dan pelatihan khusus tidak ditulis, yang disebut "open source oleh orang-orang yang tidak banyak bicara".
Itu berasal dari Model Konsistensi yang diusulkan oleh Ilya, co-creator dan kepala ilmuwan OpenAI, dan Song Yang, bintang OpenAI China yang sedang naik daun.
Pada paruh pertama tahun ini, ketika model ini bersumber terbuka, itu menyebabkan kejutan di industri dan dinilai sebagai "model difusi akhir".
Belum lama ini, Song Yang dkk. juga mengoptimalkan metode pelatihan model, yang selanjutnya dapat meningkatkan kualitas pembuatan gambar.
Netizen hanya bisa menghela nafas: Saya masih suka melihat OpenAI open source, dan saya berharap untuk terus membuka lebih banyak model.
Model Konsistensi Menyelesaikan Evolusi Ulang
Mari kita mulai dengan versi pertama dari Model Konsistensi.
Ini dirancang untuk memecahkan masalah pembuatan gambar lambat yang disebabkan oleh iterasi bertahap model difusi. Hanya membutuhkan waktu 3,5 detik untuk menghasilkan 64 gambar sekitar 256×256.
Pertama, sampel gambar berkualitas tinggi dapat dihasilkan secara langsung tanpa pelatihan permusuhan.
Kedua, dibandingkan dengan model difusi, yang mungkin memerlukan ratusan atau bahkan ribuan iterasi, model konsistensi hanya membutuhkan satu atau dua langkah untuk menyelesaikan berbagai tugas gambar.
Mewarnai, denoising, resolusi super, dll., Semuanya dapat dilakukan dalam beberapa langkah, tanpa perlu pelatihan eksplisit untuk tugas-tugas ini. (Tentu saja, efek generasi lebih baik jika pembelajaran dilakukan dengan lebih sedikit tembakan)
Pada prinsipnya, model konsistensi secara langsung memetakan noise acak ke gambar yang kompleks, dan outputnya adalah titik yang sama pada lintasan yang sama, sehingga mewujudkan generasi satu langkah.
Pendekatan lain adalah pelatihan independen, di mana model yang konsisten dilatih sebagai model yang dihasilkan secara independen.
Hasil eksperimen menunjukkan bahwa model konsistensi lebih unggul daripada teknik distilasi yang ada, seperti distilasi progresif, dalam hal pengambilan sampel satu langkah dan langkah rendah.
Ketika dilatih sebagai model generatif yang berdiri sendiri, model yang konsisten dapat dibandingkan dengan model generatif nonadversarial satu langkah yang ada dalam agregat benchmark standar, seperti CIFAR-10, ImageNet 64×64, dan LSUN 256×256.
Dengan mengoptimalkan fungsi berat, penyematan kebisingan, dan putus sekolah, model yang konsisten dapat mencapai kualitas generasi yang baik tanpa bergantung pada fitur yang dipelajari.
Ini meningkatkan pilihan fungsi berat sehingga berkurang saat tingkat kebisingan meningkat, yang menghasilkan bobot yang lebih besar dari hilangnya konsistensi pada tingkat kebisingan yang lebih kecil, sehingga meningkatkan kualitas sampel.
Pada saat yang sama, sensitivitas lapisan penyematan kebisingan disesuaikan untuk mengurangi sensitivitas terhadap perbedaan kebisingan kecil, yang membantu meningkatkan stabilitas pelatihan konsistensi waktu berkelanjutan.
Ditemukan bahwa kualitas gambar dapat lebih ditingkatkan dengan menggunakan dropout besar, menghapus EMA dari jaringan guru, dan mengganti fungsi kehilangan Pseudo-Huber dengan jarak fitur yang dipelajari (seperti LPIPS) dalam model konsensus.
Satu Hal Lagi
Kembali ke decoder open-source terbaru, gelombang pertama pengalaman terukur telah datang.
Saat ini, beberapa efek yang terlihat tidak jelas, dan banyak orang melaporkan bahwa kecepatan larinya lambat.
Tapi ini masih tes paling awal, dan mungkin ada lebih banyak perbaikan di masa depan.
Tahun ini, dengan model konsistensi, Song Yang juga terkenal. Pria besar ini pergi ke Universitas Tsinghua pada usia 16 tahun sebagai mahasiswa sains terbaik, dan lebih banyak cerita tentang dia dapat ditusuk: Bintang populer OpenAI Song Yang: Penelitian terbaru dianugerahi "Model Difusi Akhir", dan dia pergi ke Universitas Tsinghua pada usia 16 tahun
Alamat:
[1]
[2]