Çığır açan teknoloji! Açık kaynaklı çok modlu model—MiniGPT-5

Orijinal kaynak: AIGC Açık Topluluğu

Görüntü kaynağı: Sınırsız AI tarafından oluşturuldu

Multimodal nesil, OpenAI, Microsoft ve Baidu gibi teknoloji devleri için her zaman önemli bir araştırma alanı olmuştur, ancak tutarlı metin ve ilgili görüntülerin nasıl elde edileceği zor bir sorundur.

Santa Cruz'daki California Üniversitesi, teknik darboğazı aşmak için MiniGPT-5 modelini** geliştirdi ve metin özellik alanı ile görüntü özelliği alanı** arasında bir "köprü" haline gelen, sıradan eğitim verilerinin etkili bir şekilde hizalanmasını gerçekleştiren ve aynı zamanda yüksek kaliteli metin ve görüntüler üreten yeni bir teknik konsept olan "Generative Vokens"i önerdi.

MiniGPT-5'in etkilerini değerlendirmek için araştırmacılar, onu CC3M, VIST ve MMDialog dahil olmak üzere birden fazla veri kümesi üzerinde test etti. Sonuçlar, MiniGPT-5'in birden çok göstergede birden çok karşılaştırma taban çizgisinden daha iyi performans gösterdiğini ve tutarlı, yüksek kaliteli metin ve görüntüler oluşturabildiğini gösteriyor.

Örneğin, VIST veri kümesinde, MiniGPT-5 tarafından oluşturulan görüntünün CLIP puanı, ince ayarlıKararlı Difüzyon 2'ninkinden daha yüksektir; İnsan değerlendirmesinde MiniGPT-5 daha iyi dil tutarlılığı (%57.18), daha yüksek görüntü kalitesi (%52.06) ve daha güçlü çok modlu tutarlılık (%57.62) üretti.

MMDialog veri kümesinde, MiniGPT-5'in MM korelasyon indeksi 0,67'ye ulaştı ve kıyaslama modeli Divter'ın 0,62'sini aştı. Bu, MiniGPT-5'in farklı veri modlarında güçlü uyarlanabilirliğini tam olarak kanıtlıyor.

Açık Kaynak Adresi:

Adres:

MiniGPT-5 modelinin üç büyük yeniliği vardır: 1) Metin ve görüntü özelliklerini çıkarmak için çok modlu bir kodlayıcı kullanır, bu da yeni bir metin-görüntü hizalama teknolojisini temsil eder ve bu, görsel belirteçler oluşturmak için doğrudan büyük dil modellerini kullanma yönteminden daha iyidir.

  1. Tam görüntü açıklaması olmayan iki aşamalı bir eğitim stratejisi önerildi: ilk aşama metin ve görüntünün basit bir şekilde hizalanmasına odaklandı; İkinci aşamada, çok modlu ince taneli özellik öğrenimi gerçekleştirilir.

  2. Eğitime çok modlu üretimin içerik kalitesini etkin bir şekilde artırabilen "sınıflandırıcı kılavuzsuz" teknolojisi tanıtıldı. Ana modül mimarisi aşağıdaki gibidir.

Üretken Vokenler

MiniGPT-5'in temel yeniliği, büyük dil modelleri ile görüntü oluşturma modelleri arasındaki kesintisiz bağlantıyı gerçekleştiren "Generative Vokens" teknik konseptini ortaya koymaktır.

Spesifik olarak, araştırmacılar modelin sözlüğüne sekiz özel Voken jetonu eklediler[IMG1] [IMG8]- 。 Bu Voken'ler, model eğitimi sırasında görüntüler için yer tutucu olarak kullanılır.

Giriş tarafında, görüntü özellikleri bir dizi girişi oluşturmak için Voken'in kelime vektörleriyle birleştirilir. Çıktıda, model bu Vokenlerin konumunu tahmin eder ve görüntü içeriğini temsil etmek için karşılık gelen gizli durum h_voken kullanılır.

Ardından, h_voken, bir özellik eşleme modülü aracılığıyla Kararlı Difüzyon metin kodlayıcısının çıktısıyla hizalanmış görüntü koşullu özelliklere ˆh_voken dönüştürülür.

Kararlı Difüzyonda, ˆh_voken görüntü oluşturmaya rehberlik etmek için koşullu bir girdi olarak kullanılır. İşlem hattının tamamı, görüntülerden dil modellerine ve görüntü oluşturmaya kadar yerleştirmeyi gerçekleştirir.

Voken aracılığıyla bu hizalama yöntemi, ters hesaplamadan daha basittir ve görüntü açıklamalarını kullanmaktan daha çok yönlüdür. Basitçe söylemek gerekirse, Generative Vokens, farklı model alanları arasında bilgi aktarımını daha sorunsuz hale getiren bir "köprü" görevi görür.

İki Aşamalı Eğitim Stratejisi

Metin ve görüntülerin özellik alanında belirli alan farklılıkları olduğu göz önüne alındığında, MiniGPT-5 iki aşamalı bir eğitim stratejisi benimser.

İlk aşama tek modlu hizalama aşamasıdır: yalnızca CC3M gibi tek bir görüntü-metin çiftinden gelen veriler kullanılır. Model, resim başlığından karşılık gelen Voken'i oluşturmayı öğrenir. Aynı zamanda, Voken'in görüntü içeriğiyle uyumlu olmasına yardımcı olmak için ikincil bir görüntü başlığı kaybı eklendi.

İkinci aşama çok modlu öğrenme aşamasıdır: VIST gibi bitişik çok modlu örnekler içeren verileri kullanarak ince ayar yapmak. Metin oluşturma, görüntü oluşturma ve her ikisi de dahil olmak üzere farklı eğitim görevleri ayarlayın. Modelin çok modlu bilgileri işleme yeteneği geliştirildi.

Bu aşamalı strateji, doğrudan sınırlı veriler üzerinde eğitim sorununu hafifletebilir. Önce kaba taneli hizalama yapıldı ve ardından modelin etkileyiciliğini ve sağlamlığını artıran ince taneli özellikler ince ayarlandı.

Sınıflandırıcı Kılavuzu Yok

MiniGPT-5, oluşturulan metin ve görüntülerin tutarlılığını daha da artırmak için "sınıflandırıcı kılavuzsuz" teknolojisini de benimser.

Temel fikir, görüntü yayılımı sürecinde, koşullu Voken'in koşulsuz üretim elde etmek için belirli bir olasılıkla sıfır özellik ile değiştirilmesidir.

Çıkarım yaparken, koşullu ve koşulsuz sonuçlar pozitif ve negatif örnekler olarak kullanılır ve model, tutarlı bir multimodal çıktı üretmek için ikisi arasındaki kontrastı daha iyi kullanabilir. Bu yöntem basit ve verimlidir, ek sınıflandırıcılar eklemeye gerek yoktur ve veri karşılaştırma doğası aracılığıyla model öğrenimine rehberlik eder.

Metinden Görüntüye Oluşturma Modeli

MiniGPT-5, metinden görüntüye oluşturma modeli olarak Stable Diffusion 2.1 ve çok modlu model MiniGPT-4'ü kullanır. Metin açıklamalarından yüksek kaliteli, yüksek çözünürlüklü görüntüler oluşturulabilir.

Kararlı Difüzyon, ana bileşenler olarak Difüzyon modelini ve U-Net'i kullanır. Difüzyon modeli, görüntüyü gürültü verileri olarak temsil edebilir, bu veriler daha sonra gürültüden arındırılabilir ve adım adım yeniden oluşturulabilir.

U-Net, karşılık gelen görüntüleri oluşturmak için gürültü giderme işlemine rehberlik etmek için metin özelliklerini koşul olarak kullanır. GAN ile karşılaştırıldığında, Difüzyon modeli daha kararlıdır ve üretim etkisi daha net ve daha gerçekçidir.

Üretken belirteçleri üretken modelle doğru bir şekilde hizalamak için araştırmacılar, boyut eşleştirme için kompakt bir haritalama modülü geliştirdiler ve metin alanı kaybı ve gizli difüzyon modeli kaybı dahil olmak üzere bazı denetimli kayıpları dahil ettiler.

Metinsel uzamsal kayıp, modelin işaretleyicinin doğru konumunu öğrenmesine yardımcı olurken, potansiyel difüzyon kaybı, işaretleyiciyi doğrudan uygun görsel özellikle hizalar. Vokens'i oluşturan özellikler doğrudan görüntü güdümlü olduğundan, görüntünün kapsamlı bir açıklamasına gerek kalmadan tanımlayıcı öğrenme sağlanabilir.

Araştırmacılara göre, MiniGPT-5'in en büyük katkısı, metin üretimi ve görüntü üretiminin etkili entegrasyonunda yatıyor. Ön eğitim için yalnızca sıradan metin ve görüntüler gereklidir ve karmaşık görüntü açıklaması olmadan tutarlı çok modlu oluşturma gerçekleştirilebilir. Bu, çok modlu görevler için tek tip ve verimli bir çözüm sağlar.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)