OpenAI يحفظ الانتشار المستقر! E3 مع نفس وحدة فك الترميز ، من إيليا سونغ يانغ وهلم جرا

المصدر: البعد الكمي

* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *

بشكل غير متوقع ، استفاد OpenAI من الانتشار المستقر "للمنافسة".

في "حفل عيد الربيع الذكاء الاصطناعي" الساخن ، قام OpenAI بعمل مفتوح المصدر دفعة واحدة ، أحدهما ** Consistency Decoder ** ، وهو مخصص خصيصا لنموذج VAE الخاص ب SD.

إنه يتيح إنشاء صور بجودة أعلى وأكثر استقرارا ، مثل الوجوه المتعددة والصور ذات النص والتحكم في الخط.

يحلل مدون Big V أن وحدة فك التشفير هذه يجب أن تكون ** دال · E 3 بنفس الطراز ** ، على صفحة مشروع GitHub يوفر OpenAI أيضا Dall · ه 3 أطروحة.

الإصدار الذي يدعمه على وجه التحديد هو الانتشار المستقر 1.4 / 1.5.

يوجد مثال واحد فقط على صفحة المشروع ، ولم يتم كتابة التدريب المحدد ، والذي يسمى "المصدر المفتوح من قبل أشخاص لا يتحدثون كثيرا".

يمكنك فقط تحميله واستخدامه.

ووحدة فك الترميز المتماسكة هذه لديها الكثير لتقدمه.

إنه يأتي من نماذج الاتساق التي اقترحها إيليا ، المؤسس المشارك وكبير العلماء في OpenAI ، وسونغ يانغ ، النجم الصيني الصاعد ل OpenAI.

في النصف الأول من العام ، عندما كان هذا النموذج مفتوح المصدر ، تسبب في صدمة في الصناعة وتم تصنيفه على أنه "نموذج الانتشار النهائي".

منذ وقت ليس ببعيد ، قام Song Yang et al. أيضا بتحسين طريقة التدريب النموذجية ، والتي يمكن أن تزيد من تحسين جودة توليد الصور.

مصدر آخر كبير مفتوح ليوم المطور هو نموذج صوت Whisper 3. إنه أيضا عمل الأساطير ، حيث لعب أليك رادفورد دورا مهما في بناء سلسلة GPT.

لا يسع مستخدمي الإنترنت إلا أن يتنهدوا: ما زلت أحب رؤية OpenAI مفتوح المصدر ، وأتطلع إلى الاستمرار في فتح المزيد من النماذج.

نموذج الاتساق يكمل إعادة التطور

لنبدأ بالإصدار الأول من نماذج الاتساق.

إنه مصمم لحل مشكلة توليد الصور البطيئة الناتجة عن التكرار التدريجي لنماذج الانتشار. يستغرق الأمر 3.5 ثانية فقط لإنشاء 64 صورة من حوالي 256×256.

لها ميزتان رئيسيتان على نموذج الانتشار:

أولا ، يمكن إنشاء عينات صور عالية الجودة مباشرة دون تدريب عدائي.

ثانيا ، مقارنة بنموذج الانتشار ، والذي قد يتطلب مئات أو حتى آلاف التكرارات ، يحتاج نموذج التناسق إلى خطوة أو خطوتين فقط لإكمال مجموعة متنوعة من مهام الصورة.

يمكن إجراء التلوين وتقليل الضوضاء والدقة الفائقة وما إلى ذلك في بضع خطوات ، دون الحاجة إلى تدريب صريح لهذه المهام. (بالطبع ، يكون تأثير الجيل أفضل إذا تم التعلم بعدد أقل من الطلقات)

من حيث المبدأ ، يقوم نموذج الاتساق مباشرة بتعيين ضوضاء عشوائية للصور المعقدة ، والإخراج هو نفس النقطة على نفس المسار ، لذلك فهو يحقق توليد خطوة واحدة.

تقترح الورقة طريقتين للتدريب ، واحدة تعتمد على التقطير المتسق ، باستخدام نموذج نشر مدرب مسبقا لتوليد أزواج بيانات متجاورة ، وتدريب نموذج متسق عن طريق تقليل الفرق بين مخرجات النموذج.

نهج آخر هو التدريب المستقل ، حيث يتم تدريب النموذج المتسق كنموذج تم إنشاؤه بشكل مستقل.

تظهر النتائج التجريبية أن نموذج الاتساق يتفوق على تقنيات التقطير الحالية ، مثل التقطير التدريجي ، من حيث أخذ العينات بخطوة واحدة وخطوة منخفضة.

عند تدريبه كنموذج توليدي قائم بذاته ، يمكن مقارنة نموذج متسق بالنماذج التوليدية غير العدائية الحالية ذات الخطوة الواحدة في المجاميع القياسية القياسية ، مثل CIFAR-10 و ImageNet 64×64 و LSUN 256×256.

الطبعة الثانية من الورقة ، التي نشرت بعد نصف عام ، ** تحسن طريقة التدريب **.

من خلال تحسين وظيفة الوزن وتضمين الضوضاء والتسرب ، يمكن للنموذج المتسق تحقيق جودة توليد جيدة دون الاعتماد على الميزات المكتسبة.

يحسن اختيار وظيفة الوزن بحيث ينخفض مع زيادة مستوى الضوضاء ، مما يؤدي إلى زيادة وزن فقدان الاتساق عند مستويات ضوضاء أصغر ، وبالتالي تحسين جودة العينة.

في الوقت نفسه ، يتم ضبط حساسية طبقة تضمين الضوضاء لتقليل الحساسية لاختلافات الضوضاء الصغيرة ، مما يساعد على تحسين استقرار التدريب المستمر على اتساق الوقت.

وجد أنه يمكن تحسين جودة الصورة بشكل أكبر باستخدام تسرب كبير ، وإزالة EMA من شبكة المعلم ، واستبدال وظيفة فقدان Pseudo-Huber بمسافة الميزة المكتسبة (مثل LPIPS) في نموذج الإجماع.

شيء آخر

بالعودة إلى أحدث وحدة فك ترميز مفتوحة المصدر ، فقد جاءت الموجة الأولى من التجربة المقاسة.

في الوقت الحاضر ، بعض التأثيرات التي شوهدت ليست واضحة ، وأفاد الكثير من الناس أن سرعة التشغيل بطيئة.

لكن هذا لا يزال الاختبار الأول ، وقد يكون هناك المزيد من التحسينات في المستقبل.

تجدر الإشارة إلى أن Song Yang ، الذي قاد إطلاق نموذج الاتساق ، شاب ولكن تم تصنيفه على أنه OG (مخضرم) في دائرة نموذج الانتشار.

من نفيديا الذكاء الاصطناعي عالم جيم فان تويتر

هذا العام ، مع نموذج الاتساق ، تشتهر Song Yang أيضا. ذهب هذا الرجل الكبير إلى جامعة تسينغهوا في سن 16 كأفضل طالب علوم ، ويمكن طرح المزيد من القصص عنه: نجم OpenAI الصاعد الشهير سونغ يانغ: حصل البحث الأخير على "نموذج نهاية الانتشار" ، وذهب إلى جامعة تسينغهوا في سن 16

عنوان:
[1]
[2]

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت