مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود
أدت دراسة حديثة أجرتها Apple إلى تحسين أداء نماذج الانتشار بشكل كبير على الصور عالية الدقة.
باستخدام هذه الطريقة ، يتم تقليل عدد خطوات التدريب بأكثر من سبعين بالمائة لنفس الصورة ذات الدقة.
بدقة 1024 ×1024 ، تكون جودة الصورة ممتلئة مباشرة ، والتفاصيل مرئية بوضوح.
أطلقت Apple على هذا الإنجاز اسم MDM ، و DM اختصار ل Diffusion Model ، وأول M تعني Matryoshka.
تماما مثل دمية ماتريوشكا الحقيقية ، يعشش MDM العمليات منخفضة الدقة في عمليات عالية الدقة ، وهي متداخلة في طبقات متعددة.
يتم تنفيذ عمليات الانتشار عالية ومنخفضة الدقة في وقت واحد ، مما يقلل بشكل كبير من استهلاك الموارد لنموذج الانتشار التقليدي في عملية الدقة العالية.
بالنسبة للصور بدقة 256×256 ، في بيئة بحجم دفعة 1024 ، يحتاج نموذج الانتشار التقليدي إلى تدريب 1.5 مليون خطوة ، بينما يحتاج MDM إلى 390،000 خطوة فقط ، والتي يتم تقليلها بأكثر من 70٪.
بالإضافة إلى ذلك ، تتبنى MDM تدريبا شاملا ، ولا تعتمد على مجموعات بيانات محددة ونماذج مدربة مسبقا ، ولا تزال تضمن جودة التوليد أثناء التسريع ، وهي مرنة في الاستخدام.
لا يمكن رسم صور عالية الدقة فحسب ، بل يمكن أيضا إنشاء مقاطع فيديو بمساحة 16×256 درجة مربعة.
بعض مستخدمي الإنترنت بأن Apple قامت أخيرا بتوصيل النص بالصورة.
إذن ، كيف تفعل تقنية "دمية ماتريوشكا" من MDM ذلك؟
مزيج شامل وتدريجي
قبل البدء في التدريب ، يجب معالجة البيانات مسبقا ، وسيتم إعادة تشكيل الصور عالية الدقة باستخدام خوارزمية معينة للحصول على إصدارات دقة مختلفة.
ثم يتم استخدام هذه البيانات ذات الاستبانات المختلفة لنمذجة UNet المشتركة ، مع معالجة UNet الصغيرة منخفضة الدقة والتداخل في UNet الكبيرة التي تعالج دقة عالية.
باستخدام الاتصالات المتقاطعة الدقة ، يمكن مشاركة الميزات والمعلمات بين UNets ذات الأحجام المختلفة.
تدريب MDM هو عملية تدريجية.
على الرغم من أن النمذجة مشتركة ، إلا أن عملية التدريب لا تبدأ بدقة عالية ، ولكنها تتدرج تدريجيا من الدقة المنخفضة.
هذا يتجنب الكم الهائل من الحساب ويسمح بالتدريب المسبق ل UNet منخفض الدقة لتسريع عملية التدريب عالية الدقة.
أثناء عملية التدريب ، تتم إضافة بيانات التدريب عالية الدقة تدريجيا إلى العملية الشاملة ، بحيث يمكن للنموذج التكيف مع الدقة المتزايدة تدريجيا والانتقال بسلاسة إلى العملية النهائية عالية الدقة.
ومع ذلك ، بشكل عام ، بعد الإضافة التدريجية للعمليات عالية الدقة ، لا يزال تدريب MDM عملية مشتركة شاملة.
في التدريب المشترك بدقة مختلفة ، تشارك وظيفة الخسارة على قرارات متعددة في تحديث المعلمات معا ، وتجنب تراكم الأخطاء الناجمة عن التدريب متعدد المراحل.
يحتوي كل قرار على خسارة إعادة البناء المقابلة لعنصر البيانات ، ويتم ترجيح ودمج فقدان القرارات المختلفة ، من بينها وزن فقدان الدقة المنخفض أكبر من أجل ضمان جودة التوليد.
في مرحلة الاستدلال ، تتبنى MDM أيضا مجموعة من الاستراتيجيات المتوازية والتقدمية.
بالإضافة إلى ذلك ، يستخدم MDM أيضا نموذج تصنيف الصور المدرب مسبقا (CFG) لتوجيه العينات التي تم إنشاؤها للتحسين في اتجاه أكثر منطقية ، وإضافة ضوضاء إلى العينات منخفضة الدقة لجعلها أقرب إلى توزيع العينات عالية الدقة.
إذن ، ما مدى فعالية MDM؟
** معلمات أقل لمطابقة SOTA **
من حيث الصور ، على مجموعات بيانات ImageNet و CC12M ، يعمل FID الخاص ب MDM (كلما انخفضت القيمة ، كان ذلك أفضل) و CLIP أفضل بكثير من نماذج الانتشار العادية.
يستخدم FID لتقييم جودة الصورة نفسها ، ويصف CLIP درجة التطابق بين الصورة وتعليمات النص.
بالمقارنة مع نماذج SOTA مثل DALL E و IMAGEN ، فإن أداء MDM قريب أيضا ، لكن معلمات التدريب الخاصة ب MDM أقل بكثير من هذه النماذج.
ليس فقط أنه أفضل من نماذج الانتشار العادية ، ولكن MDM يتفوق أيضا على نماذج الانتشار المتتالي الأخرى.
تظهر نتائج تجارب الاجتثاث أنه كلما زاد عدد خطوات التدريب منخفض الدقة ، زاد وضوح تعزيز تأثير MDM. من ناحية أخرى ، كلما زادت مستويات التداخل ، قل عدد خطوات التدريب المطلوبة لتحقيق نفس درجة CLIP.
اختيار معلمات CFG هو نتيجة المفاضلة بين FID و CLIP بعد اختبارات متعددة (درجة CLIP عالية بالنسبة لزيادة قوة CFG).
عنوان الورقة:
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
نموذج نشر "دمية ماتريوشكا" من Apple ، يتم تقليل عدد خطوات التدريب بنسبة 70٪!
المصدر الأصلي: كيوبيتس
أدت دراسة حديثة أجرتها Apple إلى تحسين أداء نماذج الانتشار بشكل كبير على الصور عالية الدقة.
باستخدام هذه الطريقة ، يتم تقليل عدد خطوات التدريب بأكثر من سبعين بالمائة لنفس الصورة ذات الدقة.
بدقة 1024 ×1024 ، تكون جودة الصورة ممتلئة مباشرة ، والتفاصيل مرئية بوضوح.
تماما مثل دمية ماتريوشكا الحقيقية ، يعشش MDM العمليات منخفضة الدقة في عمليات عالية الدقة ، وهي متداخلة في طبقات متعددة.
يتم تنفيذ عمليات الانتشار عالية ومنخفضة الدقة في وقت واحد ، مما يقلل بشكل كبير من استهلاك الموارد لنموذج الانتشار التقليدي في عملية الدقة العالية.
بالإضافة إلى ذلك ، تتبنى MDM تدريبا شاملا ، ولا تعتمد على مجموعات بيانات محددة ونماذج مدربة مسبقا ، ولا تزال تضمن جودة التوليد أثناء التسريع ، وهي مرنة في الاستخدام.
مزيج شامل وتدريجي
ثم يتم استخدام هذه البيانات ذات الاستبانات المختلفة لنمذجة UNet المشتركة ، مع معالجة UNet الصغيرة منخفضة الدقة والتداخل في UNet الكبيرة التي تعالج دقة عالية.
باستخدام الاتصالات المتقاطعة الدقة ، يمكن مشاركة الميزات والمعلمات بين UNets ذات الأحجام المختلفة.
على الرغم من أن النمذجة مشتركة ، إلا أن عملية التدريب لا تبدأ بدقة عالية ، ولكنها تتدرج تدريجيا من الدقة المنخفضة.
هذا يتجنب الكم الهائل من الحساب ويسمح بالتدريب المسبق ل UNet منخفض الدقة لتسريع عملية التدريب عالية الدقة.
أثناء عملية التدريب ، تتم إضافة بيانات التدريب عالية الدقة تدريجيا إلى العملية الشاملة ، بحيث يمكن للنموذج التكيف مع الدقة المتزايدة تدريجيا والانتقال بسلاسة إلى العملية النهائية عالية الدقة.
في التدريب المشترك بدقة مختلفة ، تشارك وظيفة الخسارة على قرارات متعددة في تحديث المعلمات معا ، وتجنب تراكم الأخطاء الناجمة عن التدريب متعدد المراحل.
يحتوي كل قرار على خسارة إعادة البناء المقابلة لعنصر البيانات ، ويتم ترجيح ودمج فقدان القرارات المختلفة ، من بينها وزن فقدان الدقة المنخفض أكبر من أجل ضمان جودة التوليد.
في مرحلة الاستدلال ، تتبنى MDM أيضا مجموعة من الاستراتيجيات المتوازية والتقدمية.
بالإضافة إلى ذلك ، يستخدم MDM أيضا نموذج تصنيف الصور المدرب مسبقا (CFG) لتوجيه العينات التي تم إنشاؤها للتحسين في اتجاه أكثر منطقية ، وإضافة ضوضاء إلى العينات منخفضة الدقة لجعلها أقرب إلى توزيع العينات عالية الدقة.
إذن ، ما مدى فعالية MDM؟
** معلمات أقل لمطابقة SOTA **
من حيث الصور ، على مجموعات بيانات ImageNet و CC12M ، يعمل FID الخاص ب MDM (كلما انخفضت القيمة ، كان ذلك أفضل) و CLIP أفضل بكثير من نماذج الانتشار العادية.
يستخدم FID لتقييم جودة الصورة نفسها ، ويصف CLIP درجة التطابق بين الصورة وتعليمات النص.