مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
لطالما كان الجيل متعدد الوسائط مجالا بحثيا مهما لعمالقة التكنولوجيا مثل OpenAI و Microsoft و Baidu ، ولكن كيفية تحقيق نص متماسك والصور ذات الصلة يمثل مشكلة صعبة.
من أجل اختراق عنق الزجاجة التقني ، طورت جامعة كاليفورنيا ، سانتا كروز نموذج MiniGPT-5 ** واقترحت مفهوما تقنيا جديدا "Generative Vokens" ، والذي يصبح "جسرا" بين مساحة ميزة النص ومساحة ميزة الصورة ** ، وتحقيق المحاذاة الفعالة لبيانات التدريب العادية وتوليد نصوص وصور عالية الجودة في نفس الوقت.
لتقييم آثار MiniGPT-5 ، اختبره الباحثون على مجموعات بيانات متعددة ، بما في ذلك CC3M و VIST و MMDialog. تظهر النتائج أن MiniGPT-5 يتفوق على خطوط الأساس المتعددة للمقارنة على مؤشرات متعددة ، وهو قادر على إنشاء نصوص وصور متماسكة وعالية الجودة.
على سبيل المثال ، في مجموعة بيانات VIST ، تكون درجة CLIP للصورة التي تم إنشاؤها بواسطة MiniGPT-5 أعلى من درجة الانتشار المستقر 2 المضبوط بدقة ؛ في التقييم البشري ، ولدت MiniGPT-5 تماسكا لغويا أفضل (57.18٪) ، وجودة صورة أعلى (52.06٪) ، وتماسكا أقوى متعدد الوسائط (57.62٪).
في مجموعة بيانات MMDialog ، وصل مؤشر ارتباط MM ل MiniGPT-5 إلى 0.67 ، متجاوزا النموذج القياسي Divter 0.62. هذا يثبت تماما قدرة MiniGPT-5 القوية على التكيف في أوضاع البيانات المختلفة.
عنوان مفتوح المصدر:
عنوان:
يحتوي نموذج MiniGPT-5 على ثلاثة ابتكارات رئيسية: 1) يستخدم برنامج تشفير متعدد الوسائط لاستخراج ميزات النص والصورة ، والتي تمثل تقنية محاذاة نصية وصورة جديدة ، وهي أفضل من طريقة الاستخدام المباشر لنماذج اللغة الكبيرة لإنشاء الرموز المرئية.
تم اقتراح استراتيجية تدريب من مرحلتين دون وصف كامل للصورة: ركزت المرحلة الأولى على المحاذاة البسيطة للنص والصورة. في المرحلة الثانية ، يتم تنفيذ تعلم الميزات الدقيقة متعددة الوسائط.
يتم إدخال تقنية "عدم وجود توجيه مصنف" في التدريب ، والتي يمكن أن تحسن بشكل فعال جودة محتوى التوليد متعدد الوسائط. بنية الوحدة الرئيسية هي كما يلي.
**فوكنز التوليدية **
يتمثل الابتكار الأساسي ل MiniGPT-5 في طرح المفهوم التقني ل "Vokens التوليدية" ، والذي يدرك الاتصال السلس بين نماذج اللغات الكبيرة ونماذج توليد الصور.
على وجه التحديد ، أضاف الباحثون ثمانية رموز Voken خاصة إلى معجم النموذج[IMG1] [IMG8]- 。 يتم استخدام Vokens هذه كعناصر نائبة للصور أثناء تدريب النموذج.
على جانب الإدخال ، يتم تقسيم ميزات الصورة مع متجهات كلمة Voken لتشكيل إدخال تسلسل. عند الإخراج ، يتنبأ النموذج بموضع Vokens ، ويتم استخدام الحالة المخفية المقابلة h \ _voken لتمثيل محتوى الصورة.
بعد ذلك ، يتم تحويل h \ _voken إلى ميزات شرطية للصورة ˆh \ _voken محاذاة مع إخراج مشفر نص الانتشار المستقر من خلال وحدة تعيين المعالم.
في الانتشار المستقر ، يتم استخدام ˆh \ _voken كإدخال شرطي لتوجيه توليد الصورة. يدرك خط الأنابيب بأكمله الإرساء من الصور إلى نماذج اللغة إلى توليد الصور.
طريقة المحاذاة هذه من خلال Voken أكثر وضوحا من الحساب العكسي وأكثر تنوعا من استخدام أوصاف الصور. ببساطة ، يعمل Generative Vokens بمثابة "جسر" يجعل نقل المعلومات بين مجالات النموذج المختلفة أكثر سلاسة.
استراتيجية التدريب على مرحلتين
بالنظر إلى وجود اختلافات معينة في المجال في مساحة ميزة النص والصور ، تتبنى MiniGPT-5 استراتيجية تدريب من مرحلتين.
المرحلة الأولى هي مرحلة المحاذاة أحادية الوسائط: يتم استخدام البيانات فقط من زوج واحد من الصورة والنص ، مثل CC3M. يتعلم النموذج إنشاء Voken المقابل من التسمية التوضيحية للصورة. في الوقت نفسه ، تمت إضافة فقدان عنوان صورة ثانوي لمساعدة Voken على التوافق مع محتوى الصورة.
المرحلة الثانية هي مرحلة التعلم متعدد الوسائط: الضبط الدقيق باستخدام البيانات التي تحتوي على عينات متعددة الوسائط متجاورة ، مثل VIST. قم بإعداد مهام تدريب مختلفة ، بما في ذلك إنشاء النص وإنشاء الصور وكليهما. وقد تعززت قدرة النموذج على معالجة المعلومات المتعددة الوسائط.
يمكن لهذه الاستراتيجية المرحلية أن تخفف من مشكلة التدريب مباشرة على بيانات محدودة. تم إجراء محاذاة الحبيبات الخشنة أولا ، ثم تم ضبط الميزات الدقيقة الحبيبية ، مما أدى إلى تحسين تعبير ومتانة النموذج.
لا يوجد توجيه للمصنف
من أجل زيادة تحسين تماسك النصوص والصور التي تم إنشاؤها ، تتبنى MiniGPT-5 أيضا تقنية "عدم وجود إرشادات مصنف".
الفكرة الأساسية هي أنه في عملية نشر الصورة ، يتم استبدال Voken الشرطي بميزات صفرية مع احتمال معين لتحقيق توليد غير مشروط.
عند الاستدلال ، يتم استخدام النتائج الشرطية وغير المشروطة كعينات موجبة وسالبة ، ويمكن للنموذج استخدام التباين بين الاثنين بشكل أفضل لإنتاج مخرجات متعددة الوسائط متماسكة. هذه الطريقة بسيطة وفعالة ، ولا تحتاج إلى إدخال مصنفات إضافية ، وتوجه تعلم النموذج من خلال طبيعة مقارنة البيانات.
نموذج إنشاء النص إلى صورة
يستخدم MiniGPT-5 الانتشار المستقر 2.1 والنموذج متعدد الوسائط MiniGPT-4 كنموذج إنشاء النص إلى صورة. يمكن إنشاء صور عالية الجودة وعالية الدقة من أوصاف النص.
يستخدم الانتشار المستقر نموذج الانتشار و U-Net كمكونات رئيسية. يمكن أن يمثل نموذج الانتشار الصورة كبيانات ضوضاء ، والتي يمكن بعد ذلك إزالة الضوضاء وإعادة بنائها خطوة بخطوة.
تستخدم U-Net ميزات النص كشروط لتوجيه عملية تقليل الضوضاء لإنشاء الصور المقابلة. بالمقارنة مع GAN ، فإن نموذج الانتشار أكثر استقرارا ، وتأثير التوليد أكثر وضوحا وواقعية.
لمواءمة العلامات التوليدية بدقة مع النموذج التوليدي ، طور الباحثون وحدة رسم خرائط مدمجة لمطابقة الأبعاد ودمجوا بعض الخسائر الخاضعة للإشراف ، بما في ذلك فقدان مساحة النص وفقدان نموذج الانتشار الكامن.
تساعد الخسارة المكانية النصية النموذج على تعلم الموضع الصحيح للعلامة ، بينما تعمل خسارة الانتشار المحتملة على محاذاة العلامة مباشرة مع الميزة المرئية المناسبة. نظرا لأن الميزات التي تولد Vokens موجهة مباشرة بالصور ، يمكن تحقيق التعلم الوصفي دون الحاجة إلى وصف شامل للصورة.
وفقا للباحثين ، تكمن أكبر مساهمة ل MiniGPT-5 في التكامل الفعال لتوليد النص وتوليد الصور. مطلوب فقط النصوص والصور العادية للتدريب المسبق ، ويمكن إجراء توليد متعدد الوسائط متماسك دون وصف صورة معقد. يوفر هذا حلا موحدا وفعالا للمهام متعددة الوسائط.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تقنية متطورة! نموذج متعدد الوسائط مفتوح المصدر - MiniGPT-5
المصدر الأصلي: مجتمع AIGC المفتوح
لطالما كان الجيل متعدد الوسائط مجالا بحثيا مهما لعمالقة التكنولوجيا مثل OpenAI و Microsoft و Baidu ، ولكن كيفية تحقيق نص متماسك والصور ذات الصلة يمثل مشكلة صعبة.
من أجل اختراق عنق الزجاجة التقني ، طورت جامعة كاليفورنيا ، سانتا كروز نموذج MiniGPT-5 ** واقترحت مفهوما تقنيا جديدا "Generative Vokens" ، والذي يصبح "جسرا" بين مساحة ميزة النص ومساحة ميزة الصورة ** ، وتحقيق المحاذاة الفعالة لبيانات التدريب العادية وتوليد نصوص وصور عالية الجودة في نفس الوقت.
لتقييم آثار MiniGPT-5 ، اختبره الباحثون على مجموعات بيانات متعددة ، بما في ذلك CC3M و VIST و MMDialog. تظهر النتائج أن MiniGPT-5 يتفوق على خطوط الأساس المتعددة للمقارنة على مؤشرات متعددة ، وهو قادر على إنشاء نصوص وصور متماسكة وعالية الجودة.
على سبيل المثال ، في مجموعة بيانات VIST ، تكون درجة CLIP للصورة التي تم إنشاؤها بواسطة MiniGPT-5 أعلى من درجة الانتشار المستقر 2 المضبوط بدقة ؛ في التقييم البشري ، ولدت MiniGPT-5 تماسكا لغويا أفضل (57.18٪) ، وجودة صورة أعلى (52.06٪) ، وتماسكا أقوى متعدد الوسائط (57.62٪).
عنوان مفتوح المصدر:
عنوان:
تم اقتراح استراتيجية تدريب من مرحلتين دون وصف كامل للصورة: ركزت المرحلة الأولى على المحاذاة البسيطة للنص والصورة. في المرحلة الثانية ، يتم تنفيذ تعلم الميزات الدقيقة متعددة الوسائط.
يتم إدخال تقنية "عدم وجود توجيه مصنف" في التدريب ، والتي يمكن أن تحسن بشكل فعال جودة محتوى التوليد متعدد الوسائط. بنية الوحدة الرئيسية هي كما يلي.
**فوكنز التوليدية **
يتمثل الابتكار الأساسي ل MiniGPT-5 في طرح المفهوم التقني ل "Vokens التوليدية" ، والذي يدرك الاتصال السلس بين نماذج اللغات الكبيرة ونماذج توليد الصور.
على وجه التحديد ، أضاف الباحثون ثمانية رموز Voken خاصة إلى معجم النموذج[IMG1] [IMG8]- 。 يتم استخدام Vokens هذه كعناصر نائبة للصور أثناء تدريب النموذج.
على جانب الإدخال ، يتم تقسيم ميزات الصورة مع متجهات كلمة Voken لتشكيل إدخال تسلسل. عند الإخراج ، يتنبأ النموذج بموضع Vokens ، ويتم استخدام الحالة المخفية المقابلة h \ _voken لتمثيل محتوى الصورة.
في الانتشار المستقر ، يتم استخدام ˆh \ _voken كإدخال شرطي لتوجيه توليد الصورة. يدرك خط الأنابيب بأكمله الإرساء من الصور إلى نماذج اللغة إلى توليد الصور.
طريقة المحاذاة هذه من خلال Voken أكثر وضوحا من الحساب العكسي وأكثر تنوعا من استخدام أوصاف الصور. ببساطة ، يعمل Generative Vokens بمثابة "جسر" يجعل نقل المعلومات بين مجالات النموذج المختلفة أكثر سلاسة.
استراتيجية التدريب على مرحلتين
بالنظر إلى وجود اختلافات معينة في المجال في مساحة ميزة النص والصور ، تتبنى MiniGPT-5 استراتيجية تدريب من مرحلتين.
المرحلة الأولى هي مرحلة المحاذاة أحادية الوسائط: يتم استخدام البيانات فقط من زوج واحد من الصورة والنص ، مثل CC3M. يتعلم النموذج إنشاء Voken المقابل من التسمية التوضيحية للصورة. في الوقت نفسه ، تمت إضافة فقدان عنوان صورة ثانوي لمساعدة Voken على التوافق مع محتوى الصورة.
المرحلة الثانية هي مرحلة التعلم متعدد الوسائط: الضبط الدقيق باستخدام البيانات التي تحتوي على عينات متعددة الوسائط متجاورة ، مثل VIST. قم بإعداد مهام تدريب مختلفة ، بما في ذلك إنشاء النص وإنشاء الصور وكليهما. وقد تعززت قدرة النموذج على معالجة المعلومات المتعددة الوسائط.
يمكن لهذه الاستراتيجية المرحلية أن تخفف من مشكلة التدريب مباشرة على بيانات محدودة. تم إجراء محاذاة الحبيبات الخشنة أولا ، ثم تم ضبط الميزات الدقيقة الحبيبية ، مما أدى إلى تحسين تعبير ومتانة النموذج.
لا يوجد توجيه للمصنف
من أجل زيادة تحسين تماسك النصوص والصور التي تم إنشاؤها ، تتبنى MiniGPT-5 أيضا تقنية "عدم وجود إرشادات مصنف".
الفكرة الأساسية هي أنه في عملية نشر الصورة ، يتم استبدال Voken الشرطي بميزات صفرية مع احتمال معين لتحقيق توليد غير مشروط.
عند الاستدلال ، يتم استخدام النتائج الشرطية وغير المشروطة كعينات موجبة وسالبة ، ويمكن للنموذج استخدام التباين بين الاثنين بشكل أفضل لإنتاج مخرجات متعددة الوسائط متماسكة. هذه الطريقة بسيطة وفعالة ، ولا تحتاج إلى إدخال مصنفات إضافية ، وتوجه تعلم النموذج من خلال طبيعة مقارنة البيانات.
نموذج إنشاء النص إلى صورة
يستخدم MiniGPT-5 الانتشار المستقر 2.1 والنموذج متعدد الوسائط MiniGPT-4 كنموذج إنشاء النص إلى صورة. يمكن إنشاء صور عالية الجودة وعالية الدقة من أوصاف النص.
يستخدم الانتشار المستقر نموذج الانتشار و U-Net كمكونات رئيسية. يمكن أن يمثل نموذج الانتشار الصورة كبيانات ضوضاء ، والتي يمكن بعد ذلك إزالة الضوضاء وإعادة بنائها خطوة بخطوة.
تستخدم U-Net ميزات النص كشروط لتوجيه عملية تقليل الضوضاء لإنشاء الصور المقابلة. بالمقارنة مع GAN ، فإن نموذج الانتشار أكثر استقرارا ، وتأثير التوليد أكثر وضوحا وواقعية.
تساعد الخسارة المكانية النصية النموذج على تعلم الموضع الصحيح للعلامة ، بينما تعمل خسارة الانتشار المحتملة على محاذاة العلامة مباشرة مع الميزة المرئية المناسبة. نظرا لأن الميزات التي تولد Vokens موجهة مباشرة بالصور ، يمكن تحقيق التعلم الوصفي دون الحاجة إلى وصف شامل للصورة.
وفقا للباحثين ، تكمن أكبر مساهمة ل MiniGPT-5 في التكامل الفعال لتوليد النص وتوليد الصور. مطلوب فقط النصوص والصور العادية للتدريب المسبق ، ويمكن إجراء توليد متعدد الوسائط متماسك دون وصف صورة معقد. يوفر هذا حلا موحدا وفعالا للمهام متعددة الوسائط.