Meta'nın üretken yapay zeka kombosu hareket ediyor: video üretimi Gen-2'yi aşıyor ve animasyonlu görüntü emojileri istediğiniz gibi özelleştirilebilir

Üretken yapay zeka video çağına girdi.

Orijinal kaynak: Makinenin Kalbi

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Video oluşturma söz konusu olduğunda, birçok kişi muhtemelen önce Gen-2 ve Pika Labs'ı düşünür. Ancak şimdi Meta, video oluşturma açısından ikisini de geride bıraktıklarını ve düzenleme konusunda daha esnek olduklarını duyurdu.

Bu "trompet, dans eden tavşan", Meta tarafından yayınlanan en son demodur. Gördüğünüz gibi, Meta'nın teknolojisi hem esnek görüntü düzenlemeyi (örneğin, bir "tavşanı" "trompet tavşanına" ve ardından "gökkuşağı renginde bir trompet tavşanına" dönüştürmeyi) hem de metin ve resimlerden yüksek çözünürlüklü video oluşturmayı (örneğin, bir "trompet tavşanı" mutlu bir şekilde dans ettirmeyi) destekler.

Aslında, işin içinde iki şey var.

Esnek görüntü düzenleme, "Emu Edit" adlı bir model tarafından yapılır. Yerel ve genel düzenleme, arka planları kaldırma ve ekleme, renk ve geometri dönüşümleri, algılama ve segmentasyon ve daha fazlası dahil olmak üzere metin içeren görüntülerin ücretsiz düzenlenmesini destekler. Ek olarak, talimatları tam olarak takip ederek giriş görüntüsündeki talimatlarla ilgili olmayan piksellerin bozulmadan kalmasını sağlar.

Devekuşuna etek giydirin

Yüksek çözünürlüklü video, "Emu Video" adlı bir model tarafından oluşturulur. Emu Video, metne dayalı 512x512 4 saniyelik yüksek çözünürlüklü video üretebilen difüzyon tabanlı bir Wensheng video modelidir (makalede daha uzun videolar da tartışılmaktadır). Titiz bir insan değerlendirmesi, Emu Video'nun Runway'in Gen-2 ve Pika Labs'ın nesil performansına kıyasla hem neslin kalitesi hem de metnin aslına uygunluğu açısından daha yüksek puan aldığını gösterdi. İşte nasıl görüneceği:

Meta, resmi blogunda, sosyal medya kullanıcılarının kendi GIF'lerini, memlerini oluşturmalarına ve fotoğrafları ve görüntüleri istedikleri gibi düzenlemelerine izin vermek de dahil olmak üzere her iki teknolojinin geleceğini öngördü. Bununla ilgili olarak Meta, bir önceki Meta Connect konferansında Emu modelini piyasaya sürdüğünde de bundan bahsetmişti (bkz: "Meta'nın ChatGPT sürümü burada: Llama 2 kutsaması, Bing aramasına erişim, Xiaozha canlı demosu").

Ardından, bu iki yeni modelin her birini tanıtacağız.

EmuVideo

Büyük Wensheng grafik modeli, yüksek kaliteli, çeşitli görüntüler üretmek için web ölçeğinde görüntü-metin çiftleri üzerinde eğitilmiştir. Bu modeller, video-metin çiftleri kullanılarak metinden videoya (T2V) oluşturmaya daha fazla uyarlanabilirken, video üretimi, kalite ve çeşitlilik açısından hala görüntü oluşturmanın gerisinde kalmaktadır. Görüntü oluşturma ile karşılaştırıldığında, video oluşturma daha zordur çünkü yine de metin istemlerine dayanabilen daha yüksek bir uzay-zamansal çıktı alanı boyutunun modellenmesini gerektirir. Ek olarak, video-metin veri kümeleri tipik olarak görüntü-metin veri kümelerinden daha küçük bir büyüklük sırasıdır.

Hakim video oluşturma modu, tüm video karelerini bir kerede oluşturmak için bir difüzyon modeli kullanmaktır. Tam tersine, NLP'de uzun dizi üretimi otoregresif bir problem olarak formüle edilir: daha önce tahmin edilen bir kelimenin koşulunda bir sonraki kelimeyi tahmin etmek. Sonuç olarak, sonraki tahminin koşullandırma sinyali giderek güçlenecektir. Araştırmacılar, gelişmiş koşullandırmanın, kendisi de bir zaman serisi olan yüksek kaliteli video üretimi için de önemli olduğunu varsayıyorlar. Bununla birlikte, difüzyon modelleriyle otoregresif kod çözme zordur, çünkü bu tür modellerin yardımıyla tek kareli bir görüntü oluşturmak kendi içinde birden çok yineleme gerektirir.

Sonuç olarak, Meta'nın araştırmacıları, difüzyon tabanlı metinden videoya oluşturmayı açık bir ara görüntü oluşturma adımıyla artıran EMU VIDEO'yu önerdi.

Adres:

Proje Adresi:

Spesifik olarak, Wensheng video problemini iki alt probleme ayırdılar: (1) giriş metni istemine dayalı bir görüntü oluşturma ve (2) görüntünün ve metnin pekiştirme koşullarına dayalı bir video oluşturma. Sezgisel olarak, modele bir başlangıç görüntüsü ve metni vermek, modelin yalnızca görüntünün gelecekte nasıl gelişeceğini tahmin etmesi gerektiğinden video oluşturmayı kolaylaştırır.

*Meta'nın araştırmacıları Wensheng videosunu iki adıma ayırdı: önce p metnine bağlı olarak görüntü I'i oluşturun ve ardından video v'yi oluşturmak için daha güçlü koşullar (ortaya çıkan görüntü ve metin) kullanın. Model F'yi bir görüntüyle sınırlamak için, görüntüyü geçici olarak sıfırladılar ve hangi karelerin sıfırlandığını gösteren ikili bir maskeye ve gürültülü bir girişe bağladılar. *

Video-metin veri kümesi, görüntü-metin veri kümesinden çok daha küçük olduğundan, araştırmacılar metin-video modellerini, ağırlıkları dondurulmuş önceden eğitilmiş bir metin-görüntü (T2I) modeliyle başlattılar. Doğrudan 512 piksel yüksek çözünürlüklü video üretmek için dağınık gürültü zamanlamasını ve çok aşamalı eğitimi değiştirmek gibi temel tasarım kararlarını belirlediler.

Doğrudan metinden bir video oluşturma yönteminden farklı olarak, ayrıştırma yöntemleri, çıkarım yaparken açıkça bir görüntü oluşturur ve bu da Wensheng diyagram modelinin görsel çeşitliliğini, stilini ve kalitesini kolayca korumalarına olanak tanır (Şekil 1'de gösterildiği gibi). BU, EMU VIDEOSUNUN AYNI EĞITIM VERILERI, HESAPLAMA MIKTARI VE EĞITILEBILIR PARAMETRELERLE BILE DOĞRUDAN T2V YÖNTEMLERINDEN DAHA IYI PERFORMANS GÖSTERMESINI SAĞLAR.

Bu çalışma, Wensheng video oluşturma kalitesinin çok aşamalı bir eğitim yöntemiyle büyük ölçüde geliştirilebileceğini göstermektedir. Bu yöntem, önceki yöntemde kullanılan bazı derin kademeli modellere ihtiyaç duymadan 512 pikselde doğrudan yüksek çözünürlüklü video oluşturmayı destekler.

Araştırmacılar, değerlendiricilerden çiftler arasında bir seçim yaparken seçimlerinin doğru olduğunu kanıtlamalarının istendiği sağlam bir insan değerlendirme protokolü olan JUICE'u tasarladılar. Şekil 2'de gösterildiği gibi, EMU VİDEO'nun kalite ve metin doğruluğu açısından ortalama %91,8 ve %86,6'lık kazanma oranları, Pika, Gen-2 ve diğerleri gibi ticari çözümler de dahil olmak üzere tüm ön çalışmaların çok ötesindedir. T2V'YE EK OLARAK, EMU VIDEO, MODELIN KULLANICI TARAFINDAN SAĞLANAN GÖRÜNTÜLERE VE METIN ISTEMLERINE DAYALI OLARAK VIDEO OLUŞTURDUĞU GÖRÜNTÜDEN VIDEOYA OLUŞTURMA IÇIN DE KULLANILABILIR. Bu durumda, EMU VIDEO'nun üretim sonuçları VideoComposer'dan %96 daha iyidir.

Gösterilen demodan da görebileceğiniz gibi, EMU VIDEO zaten 4 saniyelik video oluşturmayı destekleyebilir. Makalede, videonun uzunluğunu artırmanın yollarını da araştırıyorlar. Yazarlar, küçük bir mimari değişiklikle modeli bir T çerçevesi üzerinde sınırlayabileceklerini ve videoyu genişletebileceklerini söylüyorlar. BU NEDENLE, SONRAKI 16 KAREYI "GEÇMIŞ" 16 KARE KOŞULUNDA OLUŞTURMAK IÇIN BIR EMU VIDEO ÇEŞIDINI EĞITTILER. Videoyu genişletirken, Şekil 7'de gösterildiği gibi orijinal videodan farklı bir gelecek metin istemi kullanırlar. Genişletilmiş videonun hem orijinal videoyu hem de gelecekteki metin istemlerini izlediğini buldular.

Emu Düzenleme: Hassas Görüntü Düzenleme

Milyonlarca insan her gün görüntü düzenlemeyi kullanıyor. Bununla birlikte, popüler görüntü düzenleme araçları ya önemli bir uzmanlık gerektirir ve kullanımı zaman alıcıdır ya da çok sınırlıdır ve yalnızca belirli filtreler gibi önceden tanımlanmış bir dizi düzenleme işlemi sunar. Bu aşamada, talimat tabanlı görüntü düzenleme, kullanıcıların bu sınırlamaları aşmak için doğal dil talimatlarını kullanmasını sağlamaya çalışır. Örneğin, bir kullanıcı bir modele bir görüntü sağlayabilir ve ona "itfaiyeci kostümü giydirmesi için talimat verebilir" (bkz. Şekil 1).

Bununla birlikte, InstructPix2Pix gibi talimat tabanlı görüntü düzenleme modelleri, verilen çeşitli talimatları işlemek için kullanılabilirken, talimatları doğru bir şekilde yorumlamak ve yürütmek genellikle zordur. Ek olarak, bu modeller sınırlı genelleme yeteneklerine sahiptir ve genellikle eğitildiklerinden biraz farklı görevleri yerine getiremezler (bkz. Şekil 3), örneğin bir yavru tavşanın gökkuşağı renginde bir trompet üflemesi ve diğer modellerin tavşanı gökkuşağı rengine boyaması veya doğrudan gökkuşağı renginde bir trompet üretmesi gibi.

Bu sorunları çözmek için Meta, yerel ve küresel düzenleme, arka planları kaldırma ve ekleme, renk değişiklikleri ve geometrik dönüşümler ve algılama ve bölümlere ayırma dahil olmak üzere komutlara dayalı olarak serbest biçimli düzenlemeler gerçekleştirebilen, geniş ve çeşitli görevler üzerinde eğitilmiş ilk görüntü düzenleme modeli olan Emu Edit'i tanıttı.

Adres:

Proje Adresi:

Günümüzün üretken yapay zeka modellerinin çoğundan farklı olarak Emu Edit, talimatları tam olarak takip ederek giriş görüntüsündeki ilgisiz piksellerin bozulmadan kalmasını sağlayabilir. Örneğin, kullanıcı "yavru köpeği çimlerin üzerinde kaldır" komutunu verirse, nesneyi çıkardıktan sonraki resim zar zor fark edilir.

Resmin sol alt köşesindeki metnin kaldırılması ve resmin arka planının değiştirilmesi de Emu Edit tarafından gerçekleştirilecektir:

Bu modeli eğitmek için Meta, her biri bir girdi görüntüsü, gerçekleştirilecek görevin bir açıklaması ve bir hedef çıktı görüntüsü içeren 10 milyon sentetik örnekten oluşan bir veri kümesi geliştirdi. Sonuç olarak, Emu Edit, komut doğruluğu ve görüntü kalitesi açısından benzeri görülmemiş düzenleme sonuçları gösterir.

Metodoloji düzeyinde, Meta eğitimli modeller, tümü üretken görevler olarak formüle edilen bölge tabanlı düzenleme, serbest biçimli düzenleme ve bilgisayarla görme görevlerini kapsayan on altı farklı görüntü düzenleme görevi gerçekleştirebilir ve Meta ayrıca her görev için benzersiz bir veri yönetimi hattı geliştirmiştir. Meta, eğitim görevlerinin sayısı arttıkça Emu Edit'in performansının da arttığını keşfetti.

İkincisi, çok çeşitli görevleri etkin bir şekilde yerine getirmek için Meta, oluşturma sürecini oluşturma görevinin doğru yönünde yönlendirmek için kullanılan öğrenilmiş görev yerleştirme kavramını tanıttı. Spesifik olarak, her görev için, bu makale benzersiz bir görev gömme vektörü öğrenir ve çapraz dikkat etkileşimi yoluyla modele entegre eder ve zaman adımı gömmeye ekler. Sonuçlar, öğrenme görevi yerleştirmenin, modelin serbest biçimli talimatlardan doğru bir şekilde akıl yürütme ve doğru düzenlemeleri gerçekleştirme yeteneğini önemli ölçüde geliştirdiğini göstermektedir.

Bu yılın Nisan ayında Meta, "Her Şeyi Böl" yapay zeka modelini piyasaya sürdü ve etkisi o kadar şaşırtıcıydı ki, birçok insan CV alanının hala var olup olmadığını merak etmeye başladı. Sadece birkaç ay içinde Meta, görseller ve videolar alanında Emu Video ve Emu Edit'i piyasaya sürdü ve yalnızca üretken yapay zeka alanının gerçekten çok değişken olduğunu söyleyebiliriz.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)