* مصدر الصورة: تم إنشاؤه بواسطة أداة Unbounded AI *
ربما تكون الكلمة الرئيسية الأكثر سخونة في عام 2023 هي AI.
من ChatGPT ، التي ولدت من اللون الأزرق ، إلى Midjourney ، التي تحظى بشعبية في جميع أنحاء الإنترنت ، ومن ثم إلى المشاجرة العالمية على نطاق واسع لمنظمة العفو الدولية ، في أقل من عام ، استمرت AIGC في الانفجار ، مما أثار العالم.
بغض النظر عن المنزل أو في الخارج ، يبدو أن الجميع قد وجد تذكرة إلى "العالم الجديد" ، سواء في البحث والتطوير في مجال الذكاء الاصطناعي ، أو في الأعمال التجارية + الذكاء الاصطناعي. يمكن القول أن الذكاء الاصطناعي أصبح أكثر يقينًا في الوقت الحالي ، مما يقود الجمهور إلى حقبة AIGC التالية ويحقق قفزة إنتاجية جديدة. هناك العديد من الأدوات المتعلقة بالذكاء الاصطناعي في الداخل والخارج ، لكنها كلها ممتدة من الخوارزميات الرئيسية الثلاثة وهي Midjourney (MJ) و Stable Diffusion (SD) و DALL-E. وقد تمت ترقية DALL-E إلى DALL-E2.
اليوم سوف نستكشف معًا ، ما هي مزايا وعيوب واختلافات هذه الخوارزميات الرئيسية الثلاثة؟
** مقدمة في الخلفية حول "أهم التدفقات" الثلاثة **
Midjourney هو برنامج مثبت حاليًا على منصة Discord. تم تطويره بواسطة استوديو في الولايات المتحدة وظهر لأول مرة في مارس 2022. في عام واحد فقط ، تم تحديث MJ وتكرارها إلى الإصدار V5 ، وسرعان ما أصبح شائعًا بفضل فنه. تم إنشاء الخرائط التي تم إنشاؤها لهذه الانفجارات على الشبكات الاجتماعية بواسطة MJ. بفضل جودة العرض المذهلة ونموذج التسويق المثالي ، نجحت في جذب عدد كبير من المستخدمين الذين يدفعون الرسوم وحققت إيرادات سنوية قدرها 100 مليون دولار أمريكي.
تم تطوير Stable Diffusion من قبل شركة Stability AI البريطانية الناشئة بالتعاون مع العديد من الباحثين الأكاديميين والمنظمات غير الهادفة للربح. إنه مجاني للاستخدام. تم فتح كود المصدر الحالي ونموذج SD ويمكن استخدامه محليًا على أجهزة Mac و PC أو حتى الأجهزة المحمولة. النشر (يتطلب تكوينًا عاليًا للمعدات نسبيًا) ، يمكنك إنشاء نماذج ذاتية الصنع ، والعديد من أدوات البرامج في الداخل والخارج ، وقد تم تطوير معظمها باستخدام SD باعتباره المنطق الأساسي ، كما أن إمكانات التحكم والعرض فيها قوية جدًا ، والآن يستخدمه العديد من المصممين للقيام ببعض الأعمال الجانبية.
تم تطوير DALL-E 2 وإطلاقه بواسطة فريق OpenAI. على عكس Midjourney ، تميل الصور التي تم إنشاؤها بموجب تعليمات بسيطة إلى أن تكون واقعية بشكل عام. DALL-E 2 هو الأفضل من بين الصور الثلاثة من حيث الصور الواقعية والمطالبات الموجزة.
** القدرة التعبيرية **
دعونا نلقي نظرة على قدرتهم التعبيرية معًا. تحت وصف ** نفس الكلمة الرئيسية ** ، كيف يتم التعليق على الصورة؟
DALL · E 2 (يسار) و Midjourney (وسط) و Stable Diffusion (يمين)
DALL · E 2 (يسار) و Midjourney (وسط) و Stable Diffusion (يمين)
DALL · E 2 (يسار) و Midjourney (وسط) و Stable Diffusion (يمين)
من المقارنة في الشكل أعلاه ، يمكننا أن نرى أن DALL-E 2 يمكنه التعامل مع صور الطبيعة والأشخاص بشكل جيد للغاية.في الوقت الحالي ، باستخدام API لـ DALL-E 2 ، يمكن تحقيق ثلاث طرق للتفاعل مع الصور: إلى موجه النص إنشاء صور من البداية ، وإنشاء تعديلات على الصور الحالية بناءً على مطالبات نصية جديدة ، وإنشاء أشكال مختلفة من الصور الموجودة.
تتمتع Midjourney بألوان غنية ورسومات واقعية في جميع المحاولات. إنه قادر على توليد الصور بناءً على مطالبات المستخدم. تعد Midjourney جيدة في تكييف نمط الفن الفعلي لإنشاء صور مع أي مجموعة من التأثيرات التي يرغب فيها المستخدم. إنها تتفوق في التأثيرات البيئية ، وخاصة مشاهد الخيال والخيال العلمي التي تشبه فن الألعاب.
و Stable Diffusion هو نموذج مفتوح المصدر يمكن للجميع استخدامه. لديه فهم جيد نسبيًا لصور الفن المعاصر ويمكنه إنتاج عمل فني مليء بالتفاصيل. إنه فقط من الصعب على المستخدمين العاديين استخدامه. في الوقت الحاضر ، المناقشة الأكثر شيوعًا بين الجميع هي من هو الأفضل ، SD أم MJ ، لذلك قمنا باختبار بعض الصور.
Midjourney (يسار) و Stable Diffusion (يمين)
Midjourney (يسار) و Stable Diffusion (يمين)
من خلال تفاصيل إنشاء صور الشخصيات الكرتونية ، يعد SD أفضل. مع إنشاء الكلمات الرئيسية نفسها ، تكون ميزات الوجه التي تم إنشاؤها بواسطة SD أكثر ثلاثية الأبعاد ورائعة ، وتكون Midjourney أكثر فنية.
Midjourney (يسار) و Stable Diffusion (يمين)
عند إنشاء صور واقعية بأسلوب التوضيح ، يكون الاثنان فعاليتين بنفس القدر. وتتمثل أكبر ميزة لبطاقة SD في أنه يمكن للمستخدمين إعادة المزج من خلال تضمين النموذج أو LoRA أو الشبكة ، مما قد ينتج عنه تأثيرات غير متوقعة.
Midjourney (يسار) و Stable Diffusion (يمين)
لدى Stable Diffusion حاليًا أكثر من ألف نموذج متاح للتنزيل. يمكن تعديل كل نموذج بشكل إضافي باستخدام نماذج LoRA ونماذج التضمين والشبكات الفائقة ؛ إن Midjourney محدودة من حيث النماذج. تتوفر فقط طرز v1 إلى v5 ، وبعض الطرز الخاصة مثل niji و test و testp و HD. هناك معلمة إضافية "أسلوب" الصورة. لكن بشكل عام لا يزال يتضاءل مقارنة بالانتشار المستقر.
** إرشادات المستخدم **
في الواقع ، مولدات الصور هذه لها مزاياها الخاصة ، وبناءً على خبرة هذه الخوارزميات الثلاثة ، قمنا بتلخيص بعض النقاط والاختلافات البارزة ، ويمكن تحديد الاختيار المحدد وفقًا لاحتياجاتك الخاصة.
** 1 、 DALL-E2 **
واجهة هذا النموذج بسيطة وسهلة الفهم ، ويمكنك بسهولة إنشاء الصور دون تسجيل نظام أساسي تابع لجهة خارجية. ما عليك سوى زيارة موقع الويب وإدخال نص كلمتك الرئيسية في مربع التوليد لإنشاء الصور.
ميزة:
ل سهل الاستخدام
ل الإبداع مع المرونة
ل لا يلزم وجود منصة طرف ثالث
عيب:
ل صورة بسيطة
ل الدقة ليست عالية
l يمكن فقط إنشاء صور مربعة
** 2 ، ميدجورني **
على عكس DALL-E 2 ، تحتاج إلى إنشاء حساب Discord أولاً ، وعليك إدخال أوامر مثل النصوص أو الصور لإنشاء الصور.
ميزة:
ل صورة عالية الجودة
ل يمكن للمستخدمين تخصيص نسبة حجم الصورة
ل تحكم مرن في معلمات الصورة
عيب:
ل هو أكثر تعقيدا للاستخدام
ل مطالبة المستخدمين بالتسجيل في Discord
l بعد نفاد الوقت السريع ، سيزداد وقت إنشاء الصورة بشكل كبير
** 3 、 انتشار مستقر **
يعتمد كل من Stable Diffusion و DALL · E-2 على نموذج الانتشار ، والذي يمكنه رسم الصور وفقًا لواصفات نص الإدخال (). لإكمال إنتاج الصور الممتازة على Stable Diffusion ، يتطلب النموذج الصحيح + كلمات سريعة دقيقة + ضبط المعلمة + تقنية ما بعد المعالجة.
ميزة:
l تشغيل الويب وتثبيت نماذج مفتوحة المصدر على منصات أخرى
ل المزيد من الحرية الإبداعية
ل عدد كبير من عناصر التحكم لتخصيص معلمات الصورة
عيب:
ل يتطلب أجهزة احترافية وقوية
l جودة الصورة غير مستقرة للغاية ، فهي تعتمد على الإصدار الذي تستخدمه
l صعوبة تعلم عالية ، يصعب على المستخدمين العاديين التحكم فيها
باختصار ، إذا كان لديك ناتج مستهدف واضح ، على سبيل المثال ، فأنت مصمم معماري ، فإن Stable Diffusion سوف يلبي احتياجاتك الإبداعية بشكل أفضل لأنه يمكن التحكم فيه بشكل أكبر. وإذا لم يكن لديك هدف تحكم إبداعي واضح وترغب في القيام ببعض الأعمال الإبداعية بتفكير متباين ، فإن الراحة والعتبة المنخفضة لـ Midjourney و DALL-E 2 ستكون خيارك الأفضل.
ما هي أداة الذكاء الاصطناعي التي تفضل استخدامها؟ كيف يتم تطبيقه في الحياة العملية؟ مرحبا بكم في المشاركة معنا في التعليقات!
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
المقارنة الأكثر شمولاً: ما هو أفضل ذكاء اصطناعي توليدي؟ مجموعة كبيرة من مزايا وعيوب أدوات إنشاء الصور الثلاثة الأولى ، ستفهمها بعد قراءتها
النص: محرر ثلاثي: VickyXiao
ربما تكون الكلمة الرئيسية الأكثر سخونة في عام 2023 هي AI.
من ChatGPT ، التي ولدت من اللون الأزرق ، إلى Midjourney ، التي تحظى بشعبية في جميع أنحاء الإنترنت ، ومن ثم إلى المشاجرة العالمية على نطاق واسع لمنظمة العفو الدولية ، في أقل من عام ، استمرت AIGC في الانفجار ، مما أثار العالم.
بغض النظر عن المنزل أو في الخارج ، يبدو أن الجميع قد وجد تذكرة إلى "العالم الجديد" ، سواء في البحث والتطوير في مجال الذكاء الاصطناعي ، أو في الأعمال التجارية + الذكاء الاصطناعي. يمكن القول أن الذكاء الاصطناعي أصبح أكثر يقينًا في الوقت الحالي ، مما يقود الجمهور إلى حقبة AIGC التالية ويحقق قفزة إنتاجية جديدة. هناك العديد من الأدوات المتعلقة بالذكاء الاصطناعي في الداخل والخارج ، لكنها كلها ممتدة من الخوارزميات الرئيسية الثلاثة وهي Midjourney (MJ) و Stable Diffusion (SD) و DALL-E. وقد تمت ترقية DALL-E إلى DALL-E2.
اليوم سوف نستكشف معًا ، ما هي مزايا وعيوب واختلافات هذه الخوارزميات الرئيسية الثلاثة؟
** مقدمة في الخلفية حول "أهم التدفقات" الثلاثة **
Midjourney هو برنامج مثبت حاليًا على منصة Discord. تم تطويره بواسطة استوديو في الولايات المتحدة وظهر لأول مرة في مارس 2022. في عام واحد فقط ، تم تحديث MJ وتكرارها إلى الإصدار V5 ، وسرعان ما أصبح شائعًا بفضل فنه. تم إنشاء الخرائط التي تم إنشاؤها لهذه الانفجارات على الشبكات الاجتماعية بواسطة MJ. بفضل جودة العرض المذهلة ونموذج التسويق المثالي ، نجحت في جذب عدد كبير من المستخدمين الذين يدفعون الرسوم وحققت إيرادات سنوية قدرها 100 مليون دولار أمريكي.
تم تطوير DALL-E 2 وإطلاقه بواسطة فريق OpenAI. على عكس Midjourney ، تميل الصور التي تم إنشاؤها بموجب تعليمات بسيطة إلى أن تكون واقعية بشكل عام. DALL-E 2 هو الأفضل من بين الصور الثلاثة من حيث الصور الواقعية والمطالبات الموجزة.
** القدرة التعبيرية **
دعونا نلقي نظرة على قدرتهم التعبيرية معًا. تحت وصف ** نفس الكلمة الرئيسية ** ، كيف يتم التعليق على الصورة؟
من المقارنة في الشكل أعلاه ، يمكننا أن نرى أن DALL-E 2 يمكنه التعامل مع صور الطبيعة والأشخاص بشكل جيد للغاية.في الوقت الحالي ، باستخدام API لـ DALL-E 2 ، يمكن تحقيق ثلاث طرق للتفاعل مع الصور: إلى موجه النص إنشاء صور من البداية ، وإنشاء تعديلات على الصور الحالية بناءً على مطالبات نصية جديدة ، وإنشاء أشكال مختلفة من الصور الموجودة.
تتمتع Midjourney بألوان غنية ورسومات واقعية في جميع المحاولات. إنه قادر على توليد الصور بناءً على مطالبات المستخدم. تعد Midjourney جيدة في تكييف نمط الفن الفعلي لإنشاء صور مع أي مجموعة من التأثيرات التي يرغب فيها المستخدم. إنها تتفوق في التأثيرات البيئية ، وخاصة مشاهد الخيال والخيال العلمي التي تشبه فن الألعاب.
و Stable Diffusion هو نموذج مفتوح المصدر يمكن للجميع استخدامه. لديه فهم جيد نسبيًا لصور الفن المعاصر ويمكنه إنتاج عمل فني مليء بالتفاصيل. إنه فقط من الصعب على المستخدمين العاديين استخدامه. في الوقت الحاضر ، المناقشة الأكثر شيوعًا بين الجميع هي من هو الأفضل ، SD أم MJ ، لذلك قمنا باختبار بعض الصور.
من خلال تفاصيل إنشاء صور الشخصيات الكرتونية ، يعد SD أفضل. مع إنشاء الكلمات الرئيسية نفسها ، تكون ميزات الوجه التي تم إنشاؤها بواسطة SD أكثر ثلاثية الأبعاد ورائعة ، وتكون Midjourney أكثر فنية.
عند إنشاء صور واقعية بأسلوب التوضيح ، يكون الاثنان فعاليتين بنفس القدر. وتتمثل أكبر ميزة لبطاقة SD في أنه يمكن للمستخدمين إعادة المزج من خلال تضمين النموذج أو LoRA أو الشبكة ، مما قد ينتج عنه تأثيرات غير متوقعة.
لدى Stable Diffusion حاليًا أكثر من ألف نموذج متاح للتنزيل. يمكن تعديل كل نموذج بشكل إضافي باستخدام نماذج LoRA ونماذج التضمين والشبكات الفائقة ؛ إن Midjourney محدودة من حيث النماذج. تتوفر فقط طرز v1 إلى v5 ، وبعض الطرز الخاصة مثل niji و test و testp و HD. هناك معلمة إضافية "أسلوب" الصورة. لكن بشكل عام لا يزال يتضاءل مقارنة بالانتشار المستقر.
** إرشادات المستخدم **
في الواقع ، مولدات الصور هذه لها مزاياها الخاصة ، وبناءً على خبرة هذه الخوارزميات الثلاثة ، قمنا بتلخيص بعض النقاط والاختلافات البارزة ، ويمكن تحديد الاختيار المحدد وفقًا لاحتياجاتك الخاصة.
واجهة هذا النموذج بسيطة وسهلة الفهم ، ويمكنك بسهولة إنشاء الصور دون تسجيل نظام أساسي تابع لجهة خارجية. ما عليك سوى زيارة موقع الويب وإدخال نص كلمتك الرئيسية في مربع التوليد لإنشاء الصور.
ل سهل الاستخدام
ل الإبداع مع المرونة
ل لا يلزم وجود منصة طرف ثالث
عيب:
ل صورة بسيطة
ل الدقة ليست عالية
l يمكن فقط إنشاء صور مربعة
** 2 ، ميدجورني **
على عكس DALL-E 2 ، تحتاج إلى إنشاء حساب Discord أولاً ، وعليك إدخال أوامر مثل النصوص أو الصور لإنشاء الصور.
ل صورة عالية الجودة
ل يمكن للمستخدمين تخصيص نسبة حجم الصورة
ل تحكم مرن في معلمات الصورة
عيب:
ل هو أكثر تعقيدا للاستخدام
ل مطالبة المستخدمين بالتسجيل في Discord
l بعد نفاد الوقت السريع ، سيزداد وقت إنشاء الصورة بشكل كبير
** 3 、 انتشار مستقر **
يعتمد كل من Stable Diffusion و DALL · E-2 على نموذج الانتشار ، والذي يمكنه رسم الصور وفقًا لواصفات نص الإدخال (). لإكمال إنتاج الصور الممتازة على Stable Diffusion ، يتطلب النموذج الصحيح + كلمات سريعة دقيقة + ضبط المعلمة + تقنية ما بعد المعالجة.
l تشغيل الويب وتثبيت نماذج مفتوحة المصدر على منصات أخرى
ل المزيد من الحرية الإبداعية
ل عدد كبير من عناصر التحكم لتخصيص معلمات الصورة
عيب:
ل يتطلب أجهزة احترافية وقوية
l جودة الصورة غير مستقرة للغاية ، فهي تعتمد على الإصدار الذي تستخدمه
l صعوبة تعلم عالية ، يصعب على المستخدمين العاديين التحكم فيها
باختصار ، إذا كان لديك ناتج مستهدف واضح ، على سبيل المثال ، فأنت مصمم معماري ، فإن Stable Diffusion سوف يلبي احتياجاتك الإبداعية بشكل أفضل لأنه يمكن التحكم فيه بشكل أكبر. وإذا لم يكن لديك هدف تحكم إبداعي واضح وترغب في القيام ببعض الأعمال الإبداعية بتفكير متباين ، فإن الراحة والعتبة المنخفضة لـ Midjourney و DALL-E 2 ستكون خيارك الأفضل.
ما هي أداة الذكاء الاصطناعي التي تفضل استخدامها؟ كيف يتم تطبيقه في الحياة العملية؟ مرحبا بكم في المشاركة معنا في التعليقات!