Mengakhiri model difusi, IGN menghasilkan gambar fotorealistik dalam satu langkah!UC BerkeleyGoogle berinovasi LLM, dan drama Amerika menjadi sumber inspirasi
Paradigma baru untuk model AI generatif akan datang. UC Berkeley Google mengusulkan jaringan generatif idempoten (IGN) yang dapat menghasilkan grafik dalam satu langkah.
Sumber gambar: Dihasilkan oleh Unbounded AI
Model difusi, yang telah menjadi populer di seluruh langit, akan dihilangkan?
Saat ini, model AI generatif, seperti GAN, model difusi, atau model konsensus, menghasilkan gambar dengan memetakan input ke output yang sesuai dengan distribusi data target.
Biasanya, model ini perlu mempelajari banyak gambar nyata sebelum dapat mencoba memastikan fitur nyata dari gambar yang dihasilkan.
Baru-baru ini, para peneliti dari UC Berkeley dan Google mengusulkan model generatif baru yang disebut jaringan generatif idempoten (IGNs).
Alamat:
IGN dapat menghasilkan gambar fotorealistik dari berbagai input, seperti noise acak, grafik sederhana, dll., Dalam satu langkah, tanpa perlu beberapa iterasi.
Model ini dimaksudkan untuk menjadi "proyektor global" yang dapat memetakan data input apa pun ke distribusi data target.
Singkatnya, ini harus menjadi kasus untuk model generasi gambar tujuan umum di masa depan.
Menariknya, adegan yang efisien di Seinfeld ternyata menjadi inspirasi penulis.
Skenario ini merangkum konsep operator idempoten dengan sangat baik, yang mengacu pada fakta bahwa input yang sama diulang selama operasi, dan hasilnya selalu sama.
Yaitu
Seperti yang ditunjukkan Jerry Seinfeld dengan bercanda, beberapa tindakan kehidupan nyata juga dapat dianggap idempoten.
Jaringan Generatif Idempoten
Ada dua perbedaan penting antara IGN dan GAN dan model difusi:
Tidak seperti GAN, IGN tidak memerlukan generator dan diskriminator terpisah, ini adalah model "self-adversarial" yang menghasilkan dan mendiskriminasi pada saat yang bersamaan.
Tidak seperti model difusi, yang melakukan langkah-langkah inkremental, IGN mencoba memetakan input ke distribusi data dalam satu langkah.
Jadi, bagaimana model generatif idempoten (IGN) muncul?
Contoh sebagian kode PyTorch untuk rutinitas pelatihan IGN.
Hasil Eksperimental
Apa efeknya ketika saya mendapatkan IGN?
Penulis mengakui bahwa pada tahap ini, hasil yang dihasilkan oleh IGN tidak dapat bersaing dengan model yang paling canggih.
Dalam percobaan, model yang lebih kecil dan dataset resolusi rendah digunakan, dan fokus utama dalam eksplorasi adalah menyederhanakan metode.
Tentu saja, teknik pemodelan generatif dasar, seperti GAN dan model difusi, membutuhkan waktu lama untuk mencapai kematangan dan skala.
Pengaturan Eksperimental
Para peneliti mengevaluasi IGN pada MNIST (Grayscale Handwritten Numeric Dataset) dan CelebA (Face Image Dataset), menggunakan resolusi gambar masing-masing 28×28 dan 64×64.
Penulis menggunakan arsitektur autoencoder sederhana, di mana encoder adalah tulang punggung diskriminator Layer 5 sederhana dari DCGAN dan decoder adalah generator. Tabel 1 mencantumkan hiperparameter pelatihan dan jaringan.
** Menghasilkan Hasil **
Gambar 4 menunjukkan hasil kualitatif dari dua dataset terakhir dari model yang diterapkan sekali dan dua kali berturut-turut.
Seperti yang Anda lihat pada gambar, menerapkan IGN sekali (f(z)) menghasilkan hasil generasi yang koheren. Namun, artefak dapat terjadi, seperti lubang di nomor MNIST, atau piksel terdistorsi dari bagian atas kepala dan rambut dalam gambar wajah.
Menerapkan kembali f (f (f (z))) dapat memperbaiki masalah ini, mengisi lubang, atau mengurangi perubahan total di sekitar plak kebisingan wajah.
Gambar 7 menunjukkan hasil tambahan serta hasil penerapan ftriplicate.
Hal ini menunjukkan bahwa ketika gambar mendekati manifold belajar, menerapkan f lagi menghasilkan perubahan minimal karena gambar dianggap didistribusikan.
** Potensi Manipulasi Ruang **
Para penulis menunjukkan bahwa IGN memiliki ruang laten yang konsisten dengan melakukan operasi, mirip dengan yang ditunjukkan oleh GAN, dan Gambar 6 menunjukkan algoritma ruang laten.
Pemetaan di Luar Distribusi
Para penulis juga memvalidasi potensi "pemetaan global" IGN dengan memasukkan gambar dari berbagai distribusi ke dalam model untuk menghasilkan "gambar alami" yang setara.
Konversi ke gambar nyata pada Gambar 5 untuk menunjukkan ini.
Gambar mentah x, tugas terbalik ini tidak dapat ditentukan. IGN mampu membuat pemetaan alami yang sesuai dengan struktur gambar aslinya.
Seperti yang ditunjukkan, penerapan F secara terus-menerus meningkatkan kualitas gambar (misalnya, menghilangkan artefak kegelapan dan asap dalam sketsa proyeksi).
Apa selanjutnya untuk Google?
Dari hasil di atas, dapat dilihat bahwa IGN lebih efektif dalam inferensi, dan hanya perlu satu langkah untuk menghasilkan hasil setelah pelatihan.
Mereka juga dapat menghasilkan hasil yang lebih konsisten, yang dapat digeneralisasikan ke lebih banyak aplikasi, seperti inpainting gambar medis.
Menurut penulis:
Kami melihat pekerjaan ini sebagai langkah pertama menuju model yang belajar memetakan input sewenang-wenang ke distribusi target, paradigma baru untuk pemodelan generatif.
Selanjutnya, tim peneliti berencana untuk meningkatkan IGN dengan lebih banyak data, berharap dapat memanfaatkan potensi penuh dari model AI generatif baru.
Kode penelitian terbaru akan dipublikasikan di GitHub di masa mendatang.
Sumber daya:
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Mengakhiri model difusi, IGN menghasilkan gambar fotorealistik dalam satu langkah!UC BerkeleyGoogle berinovasi LLM, dan drama Amerika menjadi sumber inspirasi
Sumber artikel: Zhiyuan Baru
Model difusi, yang telah menjadi populer di seluruh langit, akan dihilangkan?
Biasanya, model ini perlu mempelajari banyak gambar nyata sebelum dapat mencoba memastikan fitur nyata dari gambar yang dihasilkan.
Baru-baru ini, para peneliti dari UC Berkeley dan Google mengusulkan model generatif baru yang disebut jaringan generatif idempoten (IGNs).
IGN dapat menghasilkan gambar fotorealistik dari berbagai input, seperti noise acak, grafik sederhana, dll., Dalam satu langkah, tanpa perlu beberapa iterasi.
Model ini dimaksudkan untuk menjadi "proyektor global" yang dapat memetakan data input apa pun ke distribusi data target.
Singkatnya, ini harus menjadi kasus untuk model generasi gambar tujuan umum di masa depan.
Menariknya, adegan yang efisien di Seinfeld ternyata menjadi inspirasi penulis.
Yaitu
Jaringan Generatif Idempoten
Ada dua perbedaan penting antara IGN dan GAN dan model difusi:
Tidak seperti GAN, IGN tidak memerlukan generator dan diskriminator terpisah, ini adalah model "self-adversarial" yang menghasilkan dan mendiskriminasi pada saat yang bersamaan.
Tidak seperti model difusi, yang melakukan langkah-langkah inkremental, IGN mencoba memetakan input ke distribusi data dalam satu langkah.
Jadi, bagaimana model generatif idempoten (IGN) muncul?
Hasil Eksperimental
Apa efeknya ketika saya mendapatkan IGN?
Penulis mengakui bahwa pada tahap ini, hasil yang dihasilkan oleh IGN tidak dapat bersaing dengan model yang paling canggih.
Dalam percobaan, model yang lebih kecil dan dataset resolusi rendah digunakan, dan fokus utama dalam eksplorasi adalah menyederhanakan metode.
Tentu saja, teknik pemodelan generatif dasar, seperti GAN dan model difusi, membutuhkan waktu lama untuk mencapai kematangan dan skala.
Pengaturan Eksperimental
Para peneliti mengevaluasi IGN pada MNIST (Grayscale Handwritten Numeric Dataset) dan CelebA (Face Image Dataset), menggunakan resolusi gambar masing-masing 28×28 dan 64×64.
Penulis menggunakan arsitektur autoencoder sederhana, di mana encoder adalah tulang punggung diskriminator Layer 5 sederhana dari DCGAN dan decoder adalah generator. Tabel 1 mencantumkan hiperparameter pelatihan dan jaringan.
Gambar 4 menunjukkan hasil kualitatif dari dua dataset terakhir dari model yang diterapkan sekali dan dua kali berturut-turut.
Seperti yang Anda lihat pada gambar, menerapkan IGN sekali (f(z)) menghasilkan hasil generasi yang koheren. Namun, artefak dapat terjadi, seperti lubang di nomor MNIST, atau piksel terdistorsi dari bagian atas kepala dan rambut dalam gambar wajah.
Menerapkan kembali f (f (f (z))) dapat memperbaiki masalah ini, mengisi lubang, atau mengurangi perubahan total di sekitar plak kebisingan wajah.
** Potensi Manipulasi Ruang **
Para penulis menunjukkan bahwa IGN memiliki ruang laten yang konsisten dengan melakukan operasi, mirip dengan yang ditunjukkan oleh GAN, dan Gambar 6 menunjukkan algoritma ruang laten.
Pemetaan di Luar Distribusi
Para penulis juga memvalidasi potensi "pemetaan global" IGN dengan memasukkan gambar dari berbagai distribusi ke dalam model untuk menghasilkan "gambar alami" yang setara.
Gambar mentah x, tugas terbalik ini tidak dapat ditentukan. IGN mampu membuat pemetaan alami yang sesuai dengan struktur gambar aslinya.
Seperti yang ditunjukkan, penerapan F secara terus-menerus meningkatkan kualitas gambar (misalnya, menghilangkan artefak kegelapan dan asap dalam sketsa proyeksi).
Apa selanjutnya untuk Google?
Dari hasil di atas, dapat dilihat bahwa IGN lebih efektif dalam inferensi, dan hanya perlu satu langkah untuk menghasilkan hasil setelah pelatihan.
Mereka juga dapat menghasilkan hasil yang lebih konsisten, yang dapat digeneralisasikan ke lebih banyak aplikasi, seperti inpainting gambar medis.
Menurut penulis:
Selanjutnya, tim peneliti berencana untuk meningkatkan IGN dengan lebih banyak data, berharap dapat memanfaatkan potensi penuh dari model AI generatif baru.
Kode penelitian terbaru akan dipublikasikan di GitHub di masa mendatang.
Sumber daya: