Görüntü kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur
Beklenmedik bir şekilde OpenAI, "rekabet" Stable Diffusion'dan yararlandı.
Sıcak "AI Bahar Şenliği Galası"nda OpenAI, biri SD'nin VAE modeli için özel olarak Tutarlılık Kod Çözücü olan iki çalışmayı tek seferde açık kaynaklı hale getirdi.
Birden çok yüz, metin içeren görüntüler ve çizgi kontrolü gibi daha yüksek kaliteli ve daha kararlı görüntü üretimi sağlar.
Big V blogcu, bu kod çözücünün Dall· Aynı modele sahip E 3, GitHub proje sayfasında OpenAI ayrıca Dall· E 3 Tez.
Özellikle desteklediği sürüm Stable Diffusion 1.4/1.5'tir.
Proje sayfasında sadece bir örnek var ve "fazla konuşmayan insanlar tarafından açık kaynak" olarak adlandırılan özel eğitim yazılmamış.
Sadece yükleyebilir ve kullanabilirsiniz.
Ve bu tutarlı kod çözücünün sunabileceği çok şey var.
OpenAI'nin ortak yaratıcısı ve baş bilim adamı Ilya ve OpenAI'nin yükselen Çinli yıldızı Song Yang tarafından önerilen Tutarlılık Modellerinden geliyor.
Yılın ilk yarısında bu model açık kaynaklı olduğunda sektörde şoka neden oldu ve "son difüzyon modeli" olarak derecelendirildi.
Kısa bir süre önce, Song Yang ve ark. görüntü oluşturma kalitesini daha da artırabilecek model eğitim yöntemini de optimize etti.
Geliştirici gününün bir diğer büyük açık kaynağı ise Whisper 3 ses modeli. Aynı zamanda Alec Radford'un GPT serisinin yapımında önemli bir rol oynadığı efsanelerin eseridir.
Netizenler yardım edemiyor ama iç çekiyor: OpenAI'yi açık kaynak olarak görmeyi hala seviyorum ve daha fazla model açmaya devam etmeyi dört gözle bekliyorum.
Tutarlılık Modeli Yeniden Evrimi Tamamlar
Tutarlılık Modelleri'nin ilk sürümüyle başlayalım.
Difüzyon modellerinin kademeli olarak yinelenmesinin neden olduğu yavaş görüntü oluşturma sorununu çözmek için tasarlanmıştır. Yaklaşık 256×256'lık 64 görüntü oluşturmak yalnızca 3,5 saniye sürer.
Difüzyon modeline göre iki ana avantajı vardır:
İlk olarak, yüksek kaliteli görüntü örnekleri, çekişmeli eğitim olmadan doğrudan oluşturulabilir.
İkincisi, yüzlerce hatta binlerce yineleme gerektirebilen difüzyon modeliyle karşılaştırıldığında, tutarlılık modelinin çeşitli görüntü görevlerini tamamlamak için yalnızca bir veya iki adıma ihtiyacı vardır.
Renklendirme, gürültü giderme, süper çözünürlük vb., bu görevler için açık bir eğitime gerek kalmadan birkaç adımda yapılabilir. (Tabii ki, öğrenme daha az çekimle yapılırsa nesil etkisi daha iyidir)
Prensip olarak, tutarlılık modeli rastgele gürültüyü doğrudan karmaşık görüntülere eşler ve çıktı aynı yörüngede aynı noktadır, bu nedenle tek adımlı üretimi gerçekleştirir.
Makale, biri tutarlılık damıtmaya dayanan, bitişik veri çiftleri oluşturmak için önceden eğitilmiş bir difüzyon modeli kullanan ve model çıktıları arasındaki farkı en aza indirerek tutarlı bir modeli eğiten iki eğitim yöntemi önermektedir.
Başka bir yaklaşım, tutarlı modelin bağımsız olarak oluşturulan bir model olarak eğitildiği bağımsız eğitimdir.
Deneysel sonuçlar, kıvam modelinin, tek aşamalı ve düşük aşamalı örnekleme açısından aşamalı damıtma gibi mevcut damıtma tekniklerinden daha üstün olduğunu göstermektedir.
Tek başına bir üretken model olarak eğitildiğinde, tutarlı bir model, CIFAR-10, ImageNet 64×64 ve LSUN 256×256 gibi standart kıyaslama toplamlarındaki mevcut tek adımlı çekişmeli olmayan üretken modellerle karşılaştırılabilir.
Makalenin altı ay sonra yayınlanan ikinci baskısı, eğitim yöntemini optimize ediyor.
Ağırlık işlevini, gürültü yerleştirmeyi ve bırakmayı optimize ederek, tutarlı model, öğrenilen özelliklere güvenmeden iyi bir üretim kalitesi elde edebilir.
Ağırlık fonksiyonunun seçimini iyileştirir, böylece gürültü seviyesi arttıkça azalır, bu da daha küçük gürültü seviyelerinde tutarlılık kaybının daha fazla ağırlığına neden olur ve böylece numunenin kalitesini artırır.
Aynı zamanda, gürültü gömme katmanının hassasiyeti, küçük gürültü farklılıklarına duyarlılığı azaltmak için ayarlanır, bu da sürekli zaman tutarlılığı eğitiminin kararlılığını artırmaya yardımcı olur.
Görüntü kalitesinin, büyük bir bırakma kullanılarak, EMA'nın öğretmen ağından kaldırılması ve Pseudo-Huber kayıp fonksiyonunun konsensüs modelinde öğrenilen özellik mesafesi (LPIPS gibi) ile değiştirilmesiyle daha da iyileştirilebileceği bulunmuştur.
Bir Şey Daha
En son açık kaynaklı kod çözücüye dönersek, ölçülen deneyimin ilk dalgası geldi.
Şu anda, görülen etkilerin bazıları açık değildir ve birçok kişi koşu hızının yavaş olduğunu bildirmektedir.
Ancak bu hala en erken testtir ve gelecekte daha fazla gelişme olabilir.
Tutarlılık modelinin piyasaya sürülmesine öncülük eden Song Yang'ın genç olduğunu ancak difüzyon modeli çemberinde bir OG (kıdemli) olarak derecelendirildiğini belirtmekte fayda var.
△Nvidia AI bilim adamı Jim Fan'dan Twitter
Bu yıl tutarlılık modeliyle Song Yang da ünlü. Bu büyük adam, 16 yaşında en iyi fen öğrencisi olarak Tsinghua Üniversitesi'ne gitti ve onun hakkında daha fazla hikaye yazılabilir: OpenAI'nin popüler yükselen yıldızı Song Yang: En son araştırma "Son Difüzyon Modeli" ile ödüllendirildi ve 16 yaşında Tsinghua Üniversitesi'ne gitti
Adres:
[1]
[2]
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
OpenAI Kararlı Difüzyondan Tasarruf Sağlıyor! Aynı kod çözücü ile E3, Ilya Song Yang ve benzeri
Kaynak: Quantum Dimension
Sıcak "AI Bahar Şenliği Galası"nda OpenAI, biri SD'nin VAE modeli için özel olarak Tutarlılık Kod Çözücü olan iki çalışmayı tek seferde açık kaynaklı hale getirdi.
Birden çok yüz, metin içeren görüntüler ve çizgi kontrolü gibi daha yüksek kaliteli ve daha kararlı görüntü üretimi sağlar.
Proje sayfasında sadece bir örnek var ve "fazla konuşmayan insanlar tarafından açık kaynak" olarak adlandırılan özel eğitim yazılmamış.
OpenAI'nin ortak yaratıcısı ve baş bilim adamı Ilya ve OpenAI'nin yükselen Çinli yıldızı Song Yang tarafından önerilen Tutarlılık Modellerinden geliyor.
Yılın ilk yarısında bu model açık kaynaklı olduğunda sektörde şoka neden oldu ve "son difüzyon modeli" olarak derecelendirildi.
Kısa bir süre önce, Song Yang ve ark. görüntü oluşturma kalitesini daha da artırabilecek model eğitim yöntemini de optimize etti.
Netizenler yardım edemiyor ama iç çekiyor: OpenAI'yi açık kaynak olarak görmeyi hala seviyorum ve daha fazla model açmaya devam etmeyi dört gözle bekliyorum.
Tutarlılık Modeli Yeniden Evrimi Tamamlar
Tutarlılık Modelleri'nin ilk sürümüyle başlayalım.
Difüzyon modellerinin kademeli olarak yinelenmesinin neden olduğu yavaş görüntü oluşturma sorununu çözmek için tasarlanmıştır. Yaklaşık 256×256'lık 64 görüntü oluşturmak yalnızca 3,5 saniye sürer.
İlk olarak, yüksek kaliteli görüntü örnekleri, çekişmeli eğitim olmadan doğrudan oluşturulabilir.
İkincisi, yüzlerce hatta binlerce yineleme gerektirebilen difüzyon modeliyle karşılaştırıldığında, tutarlılık modelinin çeşitli görüntü görevlerini tamamlamak için yalnızca bir veya iki adıma ihtiyacı vardır.
Renklendirme, gürültü giderme, süper çözünürlük vb., bu görevler için açık bir eğitime gerek kalmadan birkaç adımda yapılabilir. (Tabii ki, öğrenme daha az çekimle yapılırsa nesil etkisi daha iyidir)
Prensip olarak, tutarlılık modeli rastgele gürültüyü doğrudan karmaşık görüntülere eşler ve çıktı aynı yörüngede aynı noktadır, bu nedenle tek adımlı üretimi gerçekleştirir.
Başka bir yaklaşım, tutarlı modelin bağımsız olarak oluşturulan bir model olarak eğitildiği bağımsız eğitimdir.
Deneysel sonuçlar, kıvam modelinin, tek aşamalı ve düşük aşamalı örnekleme açısından aşamalı damıtma gibi mevcut damıtma tekniklerinden daha üstün olduğunu göstermektedir.
Tek başına bir üretken model olarak eğitildiğinde, tutarlı bir model, CIFAR-10, ImageNet 64×64 ve LSUN 256×256 gibi standart kıyaslama toplamlarındaki mevcut tek adımlı çekişmeli olmayan üretken modellerle karşılaştırılabilir.
Ağırlık işlevini, gürültü yerleştirmeyi ve bırakmayı optimize ederek, tutarlı model, öğrenilen özelliklere güvenmeden iyi bir üretim kalitesi elde edebilir.
Ağırlık fonksiyonunun seçimini iyileştirir, böylece gürültü seviyesi arttıkça azalır, bu da daha küçük gürültü seviyelerinde tutarlılık kaybının daha fazla ağırlığına neden olur ve böylece numunenin kalitesini artırır.
Aynı zamanda, gürültü gömme katmanının hassasiyeti, küçük gürültü farklılıklarına duyarlılığı azaltmak için ayarlanır, bu da sürekli zaman tutarlılığı eğitiminin kararlılığını artırmaya yardımcı olur.
Görüntü kalitesinin, büyük bir bırakma kullanılarak, EMA'nın öğretmen ağından kaldırılması ve Pseudo-Huber kayıp fonksiyonunun konsensüs modelinde öğrenilen özellik mesafesi (LPIPS gibi) ile değiştirilmesiyle daha da iyileştirilebileceği bulunmuştur.
Bir Şey Daha
En son açık kaynaklı kod çözücüye dönersek, ölçülen deneyimin ilk dalgası geldi.
Şu anda, görülen etkilerin bazıları açık değildir ve birçok kişi koşu hızının yavaş olduğunu bildirmektedir.
Ancak bu hala en erken testtir ve gelecekte daha fazla gelişme olabilir.
Bu yıl tutarlılık modeliyle Song Yang da ünlü. Bu büyük adam, 16 yaşında en iyi fen öğrencisi olarak Tsinghua Üniversitesi'ne gitti ve onun hakkında daha fazla hikaye yazılabilir: OpenAI'nin popüler yükselen yıldızı Song Yang: En son araştırma "Son Difüzyon Modeli" ile ödüllendirildi ve 16 yaşında Tsinghua Üniversitesi'ne gitti
Adres:
[1]
[2]