Ketika datang ke pembuatan video, banyak orang mungkin berpikir tentang Gen-2 dan Pika Labs terlebih dahulu. Namun barusan, Meta mengumumkan bahwa mereka telah melampaui keduanya dalam hal pembuatan video dan lebih fleksibel dalam mengedit.
"Terompet, kelinci menari" ini adalah demo terbaru yang dirilis oleh Meta. Seperti yang Anda lihat, teknologi Meta mendukung pengeditan gambar yang fleksibel (misalnya, mengubah "kelinci" menjadi "kelinci terompet" dan kemudian "kelinci terompet berwarna pelangi") dan menghasilkan video resolusi tinggi dari teks dan gambar (misalnya, memiliki tarian "kelinci terompet" dengan gembira).
Sebenarnya, ada dua hal yang terlibat.
Pengeditan gambar yang fleksibel dilakukan oleh model yang disebut "Emu Edit". Ini mendukung pengeditan gambar gratis dengan teks, termasuk pengeditan lokal dan global, menghapus dan menambahkan latar belakang, konversi warna dan geometri, deteksi dan segmentasi, dan banyak lagi. Selain itu, mengikuti instruksi dengan tepat, memastikan bahwa piksel dalam gambar input yang tidak terkait dengan instruksi tetap utuh.
Dandani burung unta dengan rok
Video resolusi tinggi dihasilkan oleh model yang disebut "Video Emu". Emu Video adalah model video Wensheng berbasis difusi yang mampu menghasilkan video resolusi tinggi 512x512 4 detik berdasarkan teks (video yang lebih panjang juga dibahas di koran). Evaluasi manusia yang ketat menunjukkan bahwa Emu Video mencetak skor lebih tinggi baik dalam kualitas generasi dan kesetiaan teks dibandingkan dengan kinerja generasi Runway Gen-2 dan Pika Labs. Begini tampilannya:
Dalam blog resminya, Meta membayangkan masa depan kedua teknologi, termasuk memungkinkan pengguna media sosial untuk menghasilkan GIF, meme, dan mengedit foto dan gambar mereka sendiri sesuai keinginan. Mengenai hal ini, Meta juga menyebutkan hal ini ketika merilis model Emu pada konferensi Meta Connect sebelumnya (lihat: "ChatGPT versi Meta ada di sini: berkat Llama 2, akses ke pencarian Bing, demo langsung Xiaozha").
Selanjutnya, kami akan memperkenalkan masing-masing dari dua model baru ini.
EmuVideo
Model grafik Wensheng besar dilatih pada pasangan gambar-teks skala web untuk menghasilkan gambar berkualitas tinggi dan beragam. Sementara model ini dapat lebih disesuaikan dengan generasi text-to-video (T2V) melalui penggunaan pasangan video-teks, generasi video masih tertinggal dari generasi gambar dalam hal kualitas dan variasi. Dibandingkan dengan pembuatan gambar, pembuatan video lebih menantang karena memerlukan pemodelan dimensi ruang keluaran spatiotemporal yang lebih tinggi, yang masih dapat didasarkan pada petunjuk teks. Selain itu, himpunan data teks video biasanya memiliki urutan besarnya lebih kecil daripada himpunan data teks gambar.
Mode pembuatan video yang berlaku adalah menggunakan model difusi untuk menghasilkan semua bingkai video sekaligus. Sebaliknya, dalam NLP, generasi urutan panjang dirumuskan sebagai masalah autoregresif: memprediksi kata berikutnya pada kondisi kata yang diprediksi sebelumnya. Akibatnya, sinyal pengkondisian dari prediksi selanjutnya secara bertahap akan menjadi lebih kuat. Para peneliti berhipotesis bahwa pengkondisian yang ditingkatkan juga penting untuk pembuatan video berkualitas tinggi, yang merupakan rangkaian waktu. Namun demikian, decoding autoregresif dengan model difusi merupakan tantangan, karena menghasilkan gambar bingkai tunggal dengan bantuan model tersebut memerlukan beberapa iterasi itu sendiri.
Akibatnya, para peneliti Meta mengusulkan EMU VIDEO, yang menambah generasi teks-ke-video berbasis difusi dengan langkah pembuatan gambar menengah yang eksplisit.
Alamat:
Alamat Proyek:
Secara khusus, mereka menguraikan masalah video Wensheng menjadi dua sub-masalah: (1) menghasilkan gambar berdasarkan prompt teks input, dan (2) menghasilkan video berdasarkan kondisi penguatan gambar dan teks. Secara intuitif, memberikan model gambar dan teks awal membuat pembuatan video lebih mudah, karena model hanya perlu memprediksi bagaimana gambar akan berkembang di masa depan.
* Peneliti Meta membagi video Wensheng menjadi dua langkah: pertama menghasilkan gambar I tergantung pada teks p, dan kemudian menggunakan kondisi yang lebih kuat - gambar dan teks yang dihasilkan - untuk menghasilkan video v. Untuk membatasi Model F dengan gambar, mereka sementara memusatkan perhatian pada gambar dan menghubungkannya ke topeng biner yang menunjukkan frame mana yang dinolkan, serta input yang berisik. *
Karena dataset video-teks jauh lebih kecil daripada dataset gambar-teks, para peneliti juga menginisialisasi model teks-ke-video mereka dengan model teks-gambar pra-terlatih (T2I) yang dibekukan berat. Mereka mengidentifikasi keputusan desain utama — mengubah penjadwalan kebisingan difus dan pelatihan multi-tahap — untuk secara langsung menghasilkan video resolusi tinggi 512px.
Berbeda dengan metode menghasilkan video langsung dari teks, metode dekomposisi mereka secara eksplisit menghasilkan gambar ketika menyimpulkan, yang memungkinkan mereka untuk dengan mudah mempertahankan keragaman visual, gaya, dan kualitas model diagram Wensheng (seperti yang ditunjukkan pada Gambar 1). HAL INI MEMUNGKINKAN VIDEO EMU UNTUK MENGUNGGULI METODE T2V LANGSUNG BAHKAN DENGAN DATA PELATIHAN YANG SAMA, JUMLAH PERHITUNGAN, DAN PARAMETER YANG DAPAT DILATIH.
Studi ini menunjukkan bahwa kualitas generasi video Wensheng dapat sangat ditingkatkan melalui metode pelatihan multi-tahap. Metode ini mendukung pembuatan langsung video resolusi tinggi pada 512px tanpa memerlukan beberapa model kaskade dalam yang digunakan dalam metode sebelumnya.
Para peneliti merancang protokol penilaian manusia yang kuat, JUICE, di mana evaluator diminta untuk membuktikan bahwa pilihan mereka benar ketika membuat pilihan di antara pasangan. Seperti yang ditunjukkan pada Gambar 2, tingkat kemenangan rata-rata EMU VIDEO sebesar 91,8% dan 86,6% dalam hal kualitas dan kesetiaan teks jauh di depan semua pekerjaan di muka termasuk solusi komersial seperti Pika, Gen-2, dan lainnya. SELAIN T2V, VIDEO EMU JUGA DAPAT DIGUNAKAN UNTUK PEMBUATAN GAMBAR-KE-VIDEO, DI MANA MODEL MENGHASILKAN VIDEO BERDASARKAN GAMBAR DAN PERMINTAAN TEKS YANG DISEDIAKAN PENGGUNA. Dalam hal ini, hasil pembuatan EMU VIDEO 96% lebih baik daripada VideoComposer.
Seperti yang Anda lihat dari demo yang ditampilkan, EMU VIDEO sudah dapat mendukung pembuatan video 4 detik. Di koran, mereka juga mengeksplorasi cara-cara untuk meningkatkan panjang video. Dengan modifikasi arsitektur kecil, penulis mengatakan mereka dapat membatasi model pada T-frame dan memperpanjang video. JADI, MEREKA MELATIH VARIAN VIDEO EMU UNTUK MENGHASILKAN 16 FRAME BERIKUTNYA DENGAN KONDISI 16 FRAME "MASA LALU". Saat memperluas video, mereka menggunakan permintaan teks masa mendatang yang berbeda dari video aslinya, seperti yang ditunjukkan pada Gambar 7. Mereka menemukan bahwa video yang diperluas mengikuti video asli dan petunjuk teks di masa mendatang.
** Emu Edit: Editing Gambar Tepat **
Jutaan orang menggunakan pengeditan gambar setiap hari. Namun, alat pengeditan gambar populer memerlukan keahlian yang cukup besar dan memakan waktu untuk digunakan, atau sangat terbatas dan hanya menawarkan serangkaian operasi pengeditan yang telah ditentukan, seperti filter tertentu. Pada tahap ini, pengeditan gambar berbasis instruksi mencoba membuat pengguna menggunakan instruksi bahasa alami untuk mengatasi keterbatasan ini. Misalnya, pengguna dapat memberikan gambar kepada model dan memerintahkannya untuk "mendandani emu dengan kostum pemadam kebakaran" (lihat Gambar 1).
Namun, sementara model pengeditan gambar berbasis instruksi seperti InstructPix2Pix dapat digunakan untuk menangani berbagai instruksi yang diberikan, mereka seringkali sulit untuk menafsirkan dan menjalankan instruksi secara akurat. Selain itu, model-model ini memiliki kemampuan generalisasi yang terbatas dan seringkali tidak dapat melakukan tugas-tugas yang sedikit berbeda dari yang mereka latih (lihat Gambar 3), seperti meminta bayi kelinci meniup terompet berwarna pelangi, dan model-model lain baik mewarnai kelinci berwarna pelangi atau langsung menghasilkan terompet berwarna pelangi.
Untuk mengatasi masalah ini, Meta memperkenalkan Emu Edit, model pengeditan gambar pertama yang dilatih pada berbagai tugas yang luas dan beragam, yang dapat melakukan pengeditan bentuk bebas berdasarkan perintah, termasuk pengeditan lokal dan global, menghapus dan menambahkan latar belakang, perubahan warna dan transformasi geometris, serta mendeteksi dan menyegmentasikan.
Alamat:
Alamat Proyek:
Tidak seperti banyak model AI generatif saat ini, Emu Edit dapat mengikuti instruksi dengan tepat, memastikan bahwa piksel yang tidak terkait dalam gambar input tetap utuh. Misalnya, jika pengguna memberikan perintah "hapus anak anjing di rumput", gambar setelah menghapus objek hampir tidak terlihat.
Menghapus teks di sudut kiri bawah gambar dan mengubah latar belakang gambar juga akan ditangani oleh Emu Edit:
Untuk melatih model ini, Meta mengembangkan kumpulan data 10 juta sampel sintetis, masing-masing berisi gambar input, deskripsi tugas yang harus dilakukan, dan gambar output target. Akibatnya, Emu Edit menunjukkan hasil pengeditan yang belum pernah terjadi sebelumnya dalam hal kesetiaan perintah dan kualitas gambar.
Pada tingkat metodologi, model yang dilatih Meta dapat melakukan enam belas tugas pengeditan gambar yang berbeda, yang mencakup pengeditan berbasis wilayah, pengeditan bentuk bebas, dan tugas visi komputer, yang semuanya dirumuskan sebagai tugas generatif, dan Meta juga telah mengembangkan jalur manajemen data yang unik untuk setiap tugas. Meta telah menemukan bahwa ketika jumlah tugas pelatihan meningkat, begitu pula kinerja Emu Edit.
Kedua, untuk menangani berbagai tugas secara efektif, Meta memperkenalkan konsep penyematan tugas yang dipelajari, yang digunakan untuk memandu proses pembuatan ke arah yang benar dari tugas pembangunan. Secara khusus, untuk setiap tugas, makalah ini mempelajari vektor penyematan tugas unik dan mengintegrasikannya ke dalam model melalui interaksi lintas-perhatian dan menambahkannya ke penyematan langkah-waktu. Hasilnya menunjukkan bahwa penyematan tugas belajar secara signifikan meningkatkan kemampuan model untuk secara akurat bernalar dari instruksi bentuk bebas dan melakukan pengeditan yang benar.
Pada bulan April tahun ini, Meta meluncurkan model AI "Split Everything", dan efeknya sangat menakjubkan sehingga banyak orang mulai bertanya-tanya apakah bidang CV masih ada. Hanya dalam beberapa bulan, Meta telah meluncurkan Emu Video dan Emu Edit di bidang gambar dan video, dan kami hanya dapat mengatakan bahwa bidang AI generatif benar-benar terlalu fluktuatif.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Gerakan kombo AI generatif Meta: pembuatan video melampaui Gen-2, dan emoji gambar animasi dapat disesuaikan sesuka Anda
Sumber asli: Heart of the Machine
Ketika datang ke pembuatan video, banyak orang mungkin berpikir tentang Gen-2 dan Pika Labs terlebih dahulu. Namun barusan, Meta mengumumkan bahwa mereka telah melampaui keduanya dalam hal pembuatan video dan lebih fleksibel dalam mengedit.
Sebenarnya, ada dua hal yang terlibat.
Pengeditan gambar yang fleksibel dilakukan oleh model yang disebut "Emu Edit". Ini mendukung pengeditan gambar gratis dengan teks, termasuk pengeditan lokal dan global, menghapus dan menambahkan latar belakang, konversi warna dan geometri, deteksi dan segmentasi, dan banyak lagi. Selain itu, mengikuti instruksi dengan tepat, memastikan bahwa piksel dalam gambar input yang tidak terkait dengan instruksi tetap utuh.
Video resolusi tinggi dihasilkan oleh model yang disebut "Video Emu". Emu Video adalah model video Wensheng berbasis difusi yang mampu menghasilkan video resolusi tinggi 512x512 4 detik berdasarkan teks (video yang lebih panjang juga dibahas di koran). Evaluasi manusia yang ketat menunjukkan bahwa Emu Video mencetak skor lebih tinggi baik dalam kualitas generasi dan kesetiaan teks dibandingkan dengan kinerja generasi Runway Gen-2 dan Pika Labs. Begini tampilannya:
EmuVideo
Model grafik Wensheng besar dilatih pada pasangan gambar-teks skala web untuk menghasilkan gambar berkualitas tinggi dan beragam. Sementara model ini dapat lebih disesuaikan dengan generasi text-to-video (T2V) melalui penggunaan pasangan video-teks, generasi video masih tertinggal dari generasi gambar dalam hal kualitas dan variasi. Dibandingkan dengan pembuatan gambar, pembuatan video lebih menantang karena memerlukan pemodelan dimensi ruang keluaran spatiotemporal yang lebih tinggi, yang masih dapat didasarkan pada petunjuk teks. Selain itu, himpunan data teks video biasanya memiliki urutan besarnya lebih kecil daripada himpunan data teks gambar.
Mode pembuatan video yang berlaku adalah menggunakan model difusi untuk menghasilkan semua bingkai video sekaligus. Sebaliknya, dalam NLP, generasi urutan panjang dirumuskan sebagai masalah autoregresif: memprediksi kata berikutnya pada kondisi kata yang diprediksi sebelumnya. Akibatnya, sinyal pengkondisian dari prediksi selanjutnya secara bertahap akan menjadi lebih kuat. Para peneliti berhipotesis bahwa pengkondisian yang ditingkatkan juga penting untuk pembuatan video berkualitas tinggi, yang merupakan rangkaian waktu. Namun demikian, decoding autoregresif dengan model difusi merupakan tantangan, karena menghasilkan gambar bingkai tunggal dengan bantuan model tersebut memerlukan beberapa iterasi itu sendiri.
Akibatnya, para peneliti Meta mengusulkan EMU VIDEO, yang menambah generasi teks-ke-video berbasis difusi dengan langkah pembuatan gambar menengah yang eksplisit.
Alamat Proyek:
Secara khusus, mereka menguraikan masalah video Wensheng menjadi dua sub-masalah: (1) menghasilkan gambar berdasarkan prompt teks input, dan (2) menghasilkan video berdasarkan kondisi penguatan gambar dan teks. Secara intuitif, memberikan model gambar dan teks awal membuat pembuatan video lebih mudah, karena model hanya perlu memprediksi bagaimana gambar akan berkembang di masa depan.
Karena dataset video-teks jauh lebih kecil daripada dataset gambar-teks, para peneliti juga menginisialisasi model teks-ke-video mereka dengan model teks-gambar pra-terlatih (T2I) yang dibekukan berat. Mereka mengidentifikasi keputusan desain utama — mengubah penjadwalan kebisingan difus dan pelatihan multi-tahap — untuk secara langsung menghasilkan video resolusi tinggi 512px.
Berbeda dengan metode menghasilkan video langsung dari teks, metode dekomposisi mereka secara eksplisit menghasilkan gambar ketika menyimpulkan, yang memungkinkan mereka untuk dengan mudah mempertahankan keragaman visual, gaya, dan kualitas model diagram Wensheng (seperti yang ditunjukkan pada Gambar 1). HAL INI MEMUNGKINKAN VIDEO EMU UNTUK MENGUNGGULI METODE T2V LANGSUNG BAHKAN DENGAN DATA PELATIHAN YANG SAMA, JUMLAH PERHITUNGAN, DAN PARAMETER YANG DAPAT DILATIH.
Jutaan orang menggunakan pengeditan gambar setiap hari. Namun, alat pengeditan gambar populer memerlukan keahlian yang cukup besar dan memakan waktu untuk digunakan, atau sangat terbatas dan hanya menawarkan serangkaian operasi pengeditan yang telah ditentukan, seperti filter tertentu. Pada tahap ini, pengeditan gambar berbasis instruksi mencoba membuat pengguna menggunakan instruksi bahasa alami untuk mengatasi keterbatasan ini. Misalnya, pengguna dapat memberikan gambar kepada model dan memerintahkannya untuk "mendandani emu dengan kostum pemadam kebakaran" (lihat Gambar 1).
Alamat Proyek:
Tidak seperti banyak model AI generatif saat ini, Emu Edit dapat mengikuti instruksi dengan tepat, memastikan bahwa piksel yang tidak terkait dalam gambar input tetap utuh. Misalnya, jika pengguna memberikan perintah "hapus anak anjing di rumput", gambar setelah menghapus objek hampir tidak terlihat.
Pada tingkat metodologi, model yang dilatih Meta dapat melakukan enam belas tugas pengeditan gambar yang berbeda, yang mencakup pengeditan berbasis wilayah, pengeditan bentuk bebas, dan tugas visi komputer, yang semuanya dirumuskan sebagai tugas generatif, dan Meta juga telah mengembangkan jalur manajemen data yang unik untuk setiap tugas. Meta telah menemukan bahwa ketika jumlah tugas pelatihan meningkat, begitu pula kinerja Emu Edit.
Kedua, untuk menangani berbagai tugas secara efektif, Meta memperkenalkan konsep penyematan tugas yang dipelajari, yang digunakan untuk memandu proses pembuatan ke arah yang benar dari tugas pembangunan. Secara khusus, untuk setiap tugas, makalah ini mempelajari vektor penyematan tugas unik dan mengintegrasikannya ke dalam model melalui interaksi lintas-perhatian dan menambahkannya ke penyematan langkah-waktu. Hasilnya menunjukkan bahwa penyematan tugas belajar secara signifikan meningkatkan kemampuan model untuk secara akurat bernalar dari instruksi bentuk bebas dan melakukan pengeditan yang benar.
Pada bulan April tahun ini, Meta meluncurkan model AI "Split Everything", dan efeknya sangat menakjubkan sehingga banyak orang mulai bertanya-tanya apakah bidang CV masih ada. Hanya dalam beberapa bulan, Meta telah meluncurkan Emu Video dan Emu Edit di bidang gambar dan video, dan kami hanya dapat mengatakan bahwa bidang AI generatif benar-benar terlalu fluktuatif.