نموذج نشر "دمية ماتريوشكا" من Apple ، يتم تقليل عدد خطوات التدريب بنسبة 70٪!

المصدر الأصلي: كيوبيتس

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

أدت دراسة حديثة أجرتها Apple إلى تحسين أداء نماذج الانتشار بشكل كبير على الصور عالية الدقة.

باستخدام هذه الطريقة ، يتم تقليل عدد خطوات التدريب بأكثر من سبعين بالمائة لنفس الصورة ذات الدقة.

بدقة 1024 ×1024 ، تكون جودة الصورة ممتلئة مباشرة ، والتفاصيل مرئية بوضوح.

أطلقت Apple على هذا الإنجاز اسم MDM ، و DM اختصار ل Diffusion Model ، وأول M تعني Matryoshka.

تماما مثل دمية ماتريوشكا الحقيقية ، يعشش MDM العمليات منخفضة الدقة في عمليات عالية الدقة ، وهي متداخلة في طبقات متعددة.

يتم تنفيذ عمليات الانتشار عالية ومنخفضة الدقة في وقت واحد ، مما يقلل بشكل كبير من استهلاك الموارد لنموذج الانتشار التقليدي في عملية الدقة العالية.

بالنسبة للصور بدقة 256×256 ، في بيئة بحجم دفعة 1024 ، يحتاج نموذج الانتشار التقليدي إلى تدريب 1.5 مليون خطوة ، بينما يحتاج MDM إلى 390،000 خطوة فقط ، والتي يتم تقليلها بأكثر من 70٪.

بالإضافة إلى ذلك ، تتبنى MDM تدريبا شاملا ، ولا تعتمد على مجموعات بيانات محددة ونماذج مدربة مسبقا ، ولا تزال تضمن جودة التوليد أثناء التسريع ، وهي مرنة في الاستخدام.

لا يمكن رسم صور عالية الدقة فحسب ، بل يمكن أيضا إنشاء مقاطع فيديو بمساحة 16×256 درجة مربعة.

بعض مستخدمي الإنترنت بأن Apple قامت أخيرا بتوصيل النص بالصورة.

إذن ، كيف تفعل تقنية "دمية ماتريوشكا" من MDM ذلك؟

مزيج شامل وتدريجي

قبل البدء في التدريب ، يجب معالجة البيانات مسبقا ، وسيتم إعادة تشكيل الصور عالية الدقة باستخدام خوارزمية معينة للحصول على إصدارات دقة مختلفة.

ثم يتم استخدام هذه البيانات ذات الاستبانات المختلفة لنمذجة UNet المشتركة ، مع معالجة UNet الصغيرة منخفضة الدقة والتداخل في UNet الكبيرة التي تعالج دقة عالية.

باستخدام الاتصالات المتقاطعة الدقة ، يمكن مشاركة الميزات والمعلمات بين UNets ذات الأحجام المختلفة.

تدريب MDM هو عملية تدريجية.

على الرغم من أن النمذجة مشتركة ، إلا أن عملية التدريب لا تبدأ بدقة عالية ، ولكنها تتدرج تدريجيا من الدقة المنخفضة.

هذا يتجنب الكم الهائل من الحساب ويسمح بالتدريب المسبق ل UNet منخفض الدقة لتسريع عملية التدريب عالية الدقة.

أثناء عملية التدريب ، تتم إضافة بيانات التدريب عالية الدقة تدريجيا إلى العملية الشاملة ، بحيث يمكن للنموذج التكيف مع الدقة المتزايدة تدريجيا والانتقال بسلاسة إلى العملية النهائية عالية الدقة.

ومع ذلك ، بشكل عام ، بعد الإضافة التدريجية للعمليات عالية الدقة ، لا يزال تدريب MDM عملية مشتركة شاملة.

في التدريب المشترك بدقة مختلفة ، تشارك وظيفة الخسارة على قرارات متعددة في تحديث المعلمات معا ، وتجنب تراكم الأخطاء الناجمة عن التدريب متعدد المراحل.

يحتوي كل قرار على خسارة إعادة البناء المقابلة لعنصر البيانات ، ويتم ترجيح ودمج فقدان القرارات المختلفة ، من بينها وزن فقدان الدقة المنخفض أكبر من أجل ضمان جودة التوليد.

في مرحلة الاستدلال ، تتبنى MDM أيضا مجموعة من الاستراتيجيات المتوازية والتقدمية.

بالإضافة إلى ذلك ، يستخدم MDM أيضا نموذج تصنيف الصور المدرب مسبقا (CFG) لتوجيه العينات التي تم إنشاؤها للتحسين في اتجاه أكثر منطقية ، وإضافة ضوضاء إلى العينات منخفضة الدقة لجعلها أقرب إلى توزيع العينات عالية الدقة.

إذن ، ما مدى فعالية MDM؟

** معلمات أقل لمطابقة SOTA **

من حيث الصور ، على مجموعات بيانات ImageNet و CC12M ، يعمل FID الخاص ب MDM (كلما انخفضت القيمة ، كان ذلك أفضل) و CLIP أفضل بكثير من نماذج الانتشار العادية.

يستخدم FID لتقييم جودة الصورة نفسها ، ويصف CLIP درجة التطابق بين الصورة وتعليمات النص.

بالمقارنة مع نماذج SOTA مثل DALL E و IMAGEN ، فإن أداء MDM قريب أيضا ، لكن معلمات التدريب الخاصة ب MDM أقل بكثير من هذه النماذج.

ليس فقط أنه أفضل من نماذج الانتشار العادية ، ولكن MDM يتفوق أيضا على نماذج الانتشار المتتالي الأخرى.

تظهر نتائج تجارب الاجتثاث أنه كلما زاد عدد خطوات التدريب منخفض الدقة ، زاد وضوح تعزيز تأثير MDM. من ناحية أخرى ، كلما زادت مستويات التداخل ، قل عدد خطوات التدريب المطلوبة لتحقيق نفس درجة CLIP.

اختيار معلمات CFG هو نتيجة المفاضلة بين FID و CLIP بعد اختبارات متعددة (درجة CLIP عالية بالنسبة لزيادة قوة CFG).

عنوان الورقة:

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت