يتحرك التحرير والسرد التوليدي الذكاء الاصطناعي من Meta: يتجاوز إنشاء الفيديو Gen-2 ، ويمكن تخصيص الرموز التعبيرية للصور المتحركة كما تريد

دخلت > الذكاء الاصطناعي التوليدية عصر الفيديو.

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود

عندما يتعلق الأمر بتوليد الفيديو ، ربما يفكر الكثير من الناس في Gen-2 و Pika Labs أولا. ولكن الآن فقط ، أعلنت Meta أنها تجاوزت كلاهما من حيث توليد الفيديو وأكثر مرونة في التحرير.

هذا "البوق ، الأرنب الراقص" هو أحدث عرض توضيحي أصدرته ميتا. كما ترى ، تدعم تقنية Meta كلا من التحرير المرن للصور (على سبيل المثال ، تحويل "أرنب" إلى "أرنب بوق" ثم "أرنب بوق بلون قوس قزح") وإنشاء فيديو عالي الدقة من النص والصور (على سبيل المثال ، رقصة "أرنب البوق" بسعادة).

في الواقع ، هناك شيئان متضمنان.

يتم تحرير الصور المرن بواسطة نموذج يسمى "Emu Edit". وهو يدعم التحرير المجاني للصور مع النص ، بما في ذلك التحرير المحلي والعالمي ، وإزالة وإضافة الخلفيات ، وتحويلات الألوان والهندسة ، والكشف والتجزئة ، والمزيد. بالإضافة إلى ذلك ، فإنه يتبع التعليمات بدقة ، مما يضمن بقاء وحدات البكسل في صورة الإدخال التي لا تتعلق بالتعليمات سليمة.

* اللباس النعامة في تنورة *

يتم إنشاء الفيديو عالي الدقة بواسطة نموذج يسمى "Emu Video". Emu Video هو نموذج قائم على الانتشار لفيديو Wensheng قادر على إنشاء فيديو عالي الدقة 512 × 512 مدته 4 ثوان بناء على النص (تتم مناقشة مقاطع الفيديو الأطول أيضا في الورقة). أظهر تقييم بشري صارم أن Emu Video سجل درجات أعلى في كل من جودة الجيل ودقة النص مقارنة بأداء جيل Gen-2 و Pika Labs في Runway. إليك كيف ستبدو:

في مدونتها الرسمية ، تصورت Meta مستقبل كلتا التقنيتين ، بما في ذلك السماح لمستخدمي وسائل التواصل الاجتماعي بإنشاء صور GIF والميمات الخاصة بهم وتحرير الصور والصور كما يحلو لهم. فيما يتعلق بهذا ، ذكرت Meta هذا أيضا عندما أصدرت نموذج Emu في مؤتمر Meta Connect السابق (انظر: "إصدار Meta من ChatGPT موجود هنا: نعمة اللاما 2 ، الوصول إلى بحث Bing ، العرض التوضيحي المباشر ل Xiaozha").

بعد ذلك ، سوف نقدم كل من هذين النموذجين الجديدين.

إيميوفيديو

يتم تدريب نموذج الرسم البياني الكبير Wensheng على أزواج الصور والنصوص على نطاق الويب لإنتاج صور عالية الجودة ومتنوعة. في حين يمكن تكييف هذه النماذج بشكل أكبر مع توليد النص إلى فيديو (T2V) من خلال استخدام أزواج الفيديو والنص ، لا يزال توليد الفيديو متخلفا عن توليد الصور من حيث الجودة والتنوع. بالمقارنة مع إنشاء الصور ، يعد إنشاء الفيديو أكثر صعوبة لأنه يتطلب نمذجة بعد أعلى لمساحة الإخراج الزمانية المكانية ، والتي لا يزال من الممكن أن تستند إلى المطالبات النصية. بالإضافة إلى ذلك ، عادة ما تكون مجموعات بيانات نص الفيديو أصغر من مجموعات بيانات نص الصورة.

الوضع السائد لتوليد الفيديو هو استخدام نموذج الانتشار لإنشاء جميع إطارات الفيديو في وقت واحد. في تناقض صارخ ، في البرمجة اللغوية العصبية ، يتم صياغة توليد التسلسل الطويل كمشكلة الانحدار الذاتي: التنبؤ بالكلمة التالية بشرط كلمة متوقعة مسبقا. نتيجة لذلك ، ستصبح إشارة التكييف للتنبؤ اللاحق أقوى تدريجيا. يفترض الباحثون أن التكييف المحسن مهم أيضا لتوليد الفيديو عالي الجودة ، وهو في حد ذاته سلسلة زمنية. ومع ذلك ، فإن فك تشفير الانحدار الذاتي باستخدام نماذج الانتشار يمثل تحديا ، حيث يتطلب إنشاء صورة أحادية الإطار بمساعدة هذه النماذج تكرارات متعددة في حد ذاته.

نتيجة لذلك ، اقترح باحثو Meta EMU VIDEO ، الذي يزيد من توليد النص إلى الفيديو القائم على الانتشار بخطوة واضحة لتوليد الصور الوسيطة.

عنوان:

عنوان المشروع:

على وجه التحديد ، قاموا بتحليل مشكلة فيديو Wensheng إلى مشكلتين فرعيتين: (1) إنشاء صورة بناء على موجه نص الإدخال ، و (2) إنشاء فيديو بناء على ظروف تعزيز الصورة والنص. بشكل حدسي ، فإن إعطاء النموذج صورة أولية ونصا يجعل إنشاء الفيديو أسهل ، حيث يحتاج النموذج فقط إلى التنبؤ بكيفية تطور الصورة في المستقبل.

* قسم باحثو Meta فيديو Wensheng إلى خطوتين: أولا إنشاء صورة I مشروطة بالنص p ، ثم استخدام ظروف أقوى - الصورة والنص الناتج - لإنشاء فيديو v. لتقييد Model F بصورة ، قاموا بالتركيز مؤقتا على الصورة وتوصيلها بقناع ثنائي يشير إلى الإطارات التي تم تصفيرها ، بالإضافة إلى إدخال صاخب. *

نظرا لأن مجموعة بيانات نص الفيديو أصغر بكثير من مجموعة بيانات الصورة والنص ، فقد قام الباحثون أيضا بتهيئة نموذج تحويل النص إلى فيديو باستخدام نموذج صورة نصية (T2I) تم تدريبه مسبقا على الوزن. حددوا قرارات التصميم الرئيسية - تغيير جدولة الضوضاء المنتشرة والتدريب متعدد المراحل - لإنتاج فيديو عالي الدقة بدقة 512 بكسل بشكل مباشر.

على عكس طريقة إنشاء مقطع فيديو مباشرة من النص ، فإن طريقة التحلل الخاصة بهم تولد صورة بشكل صريح عند الاستدلال ، مما يسمح لهم بسهولة الحفاظ على التنوع البصري والأسلوب والجودة لنموذج مخطط Wensheng (كما هو موضح في الشكل 1). يتيح ذلك لفيديو EMU التفوق على طرق T2V المباشرة حتى مع نفس بيانات التدريب ومقدار الحساب والمعلمات القابلة للتدريب.

تظهر هذه الدراسة أنه يمكن تحسين جودة توليد الفيديو Wensheng بشكل كبير من خلال طريقة تدريب متعددة المراحل. تدعم هذه الطريقة التوليد المباشر للفيديو عالي الدقة بدقة 512 بكسل دون الحاجة إلى بعض نماذج التعاقب العميق المستخدمة في الطريقة السابقة.

ابتكر الباحثون بروتوكول تقييم بشري قوي ، JUICE ، حيث طلب من المقيمين إثبات أن اختيارهم كان صحيحا عند الاختيار بين الأزواج. كما هو موضح في الشكل 2 ، فإن متوسط معدلات فوز EMU VIDEO البالغ 91.8٪ و 86.6٪ من حيث الجودة ودقة النص يتقدم كثيرا على جميع الأعمال الأولية بما في ذلك الحلول التجارية مثل Pika و Gen-2 وغيرها. بالإضافة إلى T2V ، يمكن أيضا استخدام فيديو EMU لإنشاء صورة إلى فيديو ، حيث يقوم النموذج بإنشاء فيديو بناء على الصور والمطالبات النصية المقدمة من المستخدم. في هذه الحالة ، تكون نتائج إنشاء EMU VIDEO أفضل بنسبة 96٪ من VideoComposer.

كما ترون من العرض التوضيحي الموضح ، يمكن أن يدعم EMU VIDEO بالفعل إنشاء فيديو مدته 4 ثوان. في الورقة ، يستكشفون أيضا طرقا لزيادة طول الفيديو. مع تعديل معماري صغير ، يقول المؤلفون إنه يمكنهم تقييد النموذج على إطار T وتمديد الفيديو. لذلك ، قاموا بتدريب نوع مختلف من فيديو EMU لإنشاء الإطارات ال 16 التالية بشرط الإطارات ال 16 "الماضية". عند توسيع الفيديو ، يستخدمون مطالبة نصية مستقبلية مختلفة عن الفيديو الأصلي ، كما هو موضح في الشكل 7. وجدوا أن الفيديو الموسع يتبع كلا من الفيديو الأصلي ومطالبات النص المستقبلية.

** تحرير الاتحاد الاقتصادي والنقدي: تحرير الصور بدقة **

يستخدم ملايين الأشخاص تحرير الصور كل يوم. ومع ذلك ، فإن أدوات تحرير الصور الشائعة إما تتطلب خبرة كبيرة وتستغرق وقتا طويلا في الاستخدام ، أو أنها محدودة للغاية ولا تقدم سوى مجموعة من عمليات التحرير المحددة مسبقا ، مثل المرشحات المحددة. في هذه المرحلة ، يحاول تحرير الصور المستند إلى التعليمات حث المستخدمين على استخدام تعليمات اللغة الطبيعية للتغلب على هذه القيود. على سبيل المثال ، يمكن للمستخدم تقديم صورة لنموذج وتوجيهه إلى "ارتداء زي رجل إطفاء" (انظر الشكل 1).

ومع ذلك ، في حين يمكن استخدام نماذج تحرير الصور المستندة إلى التعليمات مثل InstructPix2Pix للتعامل مع مجموعة متنوعة من التعليمات المقدمة ، إلا أنه غالبا ما يكون من الصعب تفسير التعليمات وتنفيذها بدقة. بالإضافة إلى ذلك ، تتمتع هذه النماذج بقدرات تعميم محدودة وغالبا ما تكون غير قادرة على أداء مهام مختلفة قليلا عن تلك التي تم تدريبها عليها (انظر الشكل 3) ، مثل جعل أرنب صغير ينفخ في بوق بلون قوس قزح ، ونماذج أخرى إما صبغ الأرنب بلون قوس قزح أو توليد بوق بلون قوس قزح مباشرة.

لمعالجة هذه المشكلات ، قدمت Meta Emu Edit ، وهو أول نموذج لتحرير الصور تم تدريبه على مجموعة واسعة ومتنوعة من المهام ، والتي يمكنها إجراء تعديلات حرة الشكل بناء على الأوامر ، بما في ذلك التحرير المحلي والعالمي ، وإزالة الخلفيات وإضافتها ، وتغييرات الألوان والتحويلات الهندسية ، والكشف والتجزئة.

عنوان:

عنوان المشروع:

على عكس العديد من نماذج الذكاء الاصطناعي التوليدية اليوم ، يمكن ل Emu Edit اتباع التعليمات بدقة ، مما يضمن بقاء وحدات البكسل غير ذات الصلة في صورة الإدخال سليمة. على سبيل المثال ، إذا أعطى المستخدم الأمر "إزالة الجرو على العشب" ، فإن الصورة بعد إزالة الكائن بالكاد ملحوظة.

سيتم أيضا التعامل مع إزالة النص في الزاوية اليسرى السفلية من الصورة وتغيير خلفية الصورة بواسطة Emu Edit:

لتدريب هذا النموذج ، طورت Meta مجموعة بيانات من 10 ملايين عينة اصطناعية ، تحتوي كل منها على صورة إدخال ، ووصف للمهمة التي يتعين القيام بها ، وصورة إخراج مستهدفة. نتيجة لذلك ، يظهر Emu Edit نتائج تحرير غير مسبوقة من حيث دقة الأوامر وجودة الصورة.

على مستوى المنهجية، يمكن للنماذج المدربة على التلويا تنفيذ ستة عشر مهمة مختلفة لتحرير الصور، تغطي التحرير القائم على المنطقة، وتحرير النموذج الحر، ومهام رؤية الكمبيوتر، وكلها مصاغة كمهام توليدية، وقد طورت Meta أيضا خط أنابيب فريد لإدارة البيانات لكل مهمة. وجدت Meta أنه مع زيادة عدد مهام التدريب ، يزداد أداء Emu Edit.

ثانيا ، من أجل التعامل بفعالية مع مجموعة متنوعة من المهام ، قدمت Meta مفهوم تضمين المهام المكتسبة ، والذي يستخدم لتوجيه عملية الإنشاء في الاتجاه الصحيح لمهمة البناء. على وجه التحديد ، لكل مهمة ، تتعلم هذه الورقة متجه تضمين مهمة فريد وتدمجه في النموذج من خلال تفاعل الانتباه المتقاطع وتضيفه إلى تضمين الخطوة الزمنية. تظهر النتائج أن تضمين مهمة التعلم يعزز بشكل كبير قدرة النموذج على التفكير بدقة من التعليمات الحرة وإجراء التعديلات الصحيحة.

في أبريل من هذا العام ، أطلقت Meta نموذج الذكاء الاصطناعي "Split Everything" ، وكان التأثير مذهلا لدرجة أن الكثير من الناس بدأوا يتساءلون عما إذا كان مجال السيرة الذاتية لا يزال موجودا. في غضون بضعة أشهر فقط ، أطلقت Meta Emu Video و Emu Edit في مجال الصور ومقاطع الفيديو ، ولا يسعنا إلا أن نقول إن مجال الذكاء الاصطناعي التوليدية متقلب للغاية حقا.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت