Найповніше порівняння: який найкращий генеративний ШІ? Велику колекцію переваг і недоліків трьох найкращих інструментів генерації зображень ви зрозумієте, прочитавши її

Question

Текст: Tri Редактор: VickyXiao![](https://img.gateio.im/social/moments-bab2147faf-c6a4dbe7ea-dd1a6f-62a40f) *Джерело зображення: створено інструментом Unbounded AI*Найпопулярнішим ключовим словом у 2023 році, мабуть, є ШІ.Від ChatGPT, який народився несподівано, до Midjourney, популярного в Інтернеті, а потім і до глобального масштабного рукопашного бою штучного інтелекту менш ніж за рік AIGC продовжував вибухати, сколихнувши світ.Незалежно від того, вдома чи за кордоном, здається, кожен знайшов квиток у «новий світ» або в дослідженнях і розробках ШІ, або в бізнесі + ШІ. Можна сказати, що штучний інтелект став найбільш певною впевненістю на даний момент, ведучи громадськість до наступної ери AIGC і реалізуючи новий стрибок продуктивності. У країні та за кордоном існує багато інструментів, пов’язаних зі штучним інтелектом, але всі вони розширені з трьох основних алгоритмів Midjourney (MJ), Stable Diffusion (SD) і DALL-E. DALL-E оновлено до DALL-E2.Сьогодні ми разом дослідимо, які переваги, недоліки та відмінності цих трьох основних алгоритмів?## **Довідкове представлення трьох «верхніх потоків»**Midjourney — це програмне забезпечення, яке наразі встановлено на платформі Discord. Воно було розроблено студією в Сполучених Штатах і дебютувало в березні 2022 року. Лише за рік MJ оновив і перейшов до версії V5 і швидко став популярним завдяки своїй майстерності. Згенеровані карти цих вибухів у соціальних мережах створені MJ. Завдяки дивовижній якості візуалізації та ідеальній моделі комерціалізації він успішно залучив велику кількість платоспроможних користувачів і досяг річного доходу в 100 мільйонів доларів США.![](https://img.gateio.im/social/moments-bab2147faf-7bceae4c5a-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-2f8839a4bb-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-337bea44b6-dd1a6f-62a40f) Stable Diffusion розроблено британською стартап-компанією Stability AI у співпраці з кількома академічними дослідниками та некомерційними організаціями. Використовувати його можна безкоштовно. Поточний вихідний код і модель SD є відкритими та можуть використовуватися локально на Mac, ПК або навіть мобільних пристроїв. Розгортання (вимагає відносно високої конфігурації обладнання), ви можете створити модель своїми руками, багато програмних інструментів у країні та за кордоном, більшість із них розроблено з використанням SD як основної логіки, а також його можливості керування та рендерингу також дуже сильні, і зараз багато дизайнерів використовують його для виконання деяких побічних робіт.DALL-E 2 була розроблена та запущена командою OpenAI. На відміну від Midjourney, зображення, створені за простими інструкціями, зазвичай мають тенденцію бути реалістичними. DALL-E 2 є найкращим із трьох у плані реалістичних зображень і лаконічних підказок.![](https://img.gateio.im/social/moments-bab2147faf-fcbcf5df3f-dd1a6f-62a40f)## **Виразна здатність**Давайте разом подивимося на їхню експресивну здатність. Під описом **одного й того ж ключового слова** вкажіть, як виглядає їхнє зображення?![](https://img.gateio.im/social/moments-bab2147faf-9d9bc787a5-dd1a6f-62a40f) DALL·E 2 (ліворуч), Midjourney (посередині) і Stable Diffusion (праворуч)![](https://img.gateio.im/social/moments-bab2147faf-0a8ad7581d-dd1a6f-62a40f) DALL·E 2 (ліворуч), Midjourney (посередині) і Stable Diffusion (праворуч)![](https://img.gateio.im/social/moments-bab2147faf-944659dde5-dd1a6f-62a40f) DALL·E 2 (ліворуч), Midjourney (посередині) і Stable Diffusion (праворуч)З порівняння на наведеному вище малюнку ми бачимо, що DALL-E 2 дуже добре обробляє зображення природи та людей.Наразі за допомогою API DALL-E 2 можна реалізувати три методи взаємодії із зображеннями: до текстової підказки Створення зображень з нуля, редагування існуючих зображень на основі нових текстових підказок, створення варіантів існуючих зображень.Midjourney має насичені кольори та реалістичну графіку в усіх спробах. Він здатний генерувати зображення на основі підказок користувача. Midjourney добре адаптує фактичний художній стиль для створення зображень із будь-якою комбінацією ефектів, які бажає користувач. Він чудово справляється з ефектами навколишнього середовища, особливо фантастичними та науково-фантастичними сценами, схожими на ігрове мистецтво.А Stable Diffusion — це модель з відкритим кодом, якою може користуватися кожен. Він має відносно добре розуміння образів сучасного мистецтва та може створювати мистецькі роботи, повні деталей. Просто простим користувачам нею важко користуватися. Зараз найпопулярнішою дискусією серед усіх є те, хто краще SD чи MJ, тому ми протестували деякі зображення.![](https://img.gateio.im/social/moments-bab2147faf-8b655a73e5-dd1a6f-62a40f) Проміжний шлях (ліворуч) і стабільна дифузія (праворуч)![](https://img.gateio.im/social/moments-bab2147faf-0f5e359b9d-dd1a6f-62a40f) Проміжний шлях (ліворуч) і стабільна дифузія (праворуч)Щодо деталей генерації зображень мультфільмів, SD є кращим. З тим самим генеруванням ключових слів риси обличчя, створені SD, стають більш тривимірними та витонченими, а Midjourney більш художнім.![](https://img.gateio.im/social/moments-bab2147faf-2040b1f890-dd1a6f-62a40f) Проміжний шлях (ліворуч) і стабільна дифузія (праворуч)Під час створення реалістичних зображень у стилі ілюстрації обидва однаково ефективні.Найбільша перевага SD полягає в тому, що користувачі можуть реміксувати за допомогою вбудовування моделі, LoRA або мережі, що може призвести до неочікуваних ефектів.![](https://img.gateio.im/social/moments-bab2147faf-26c0f07941-dd1a6f-62a40f) Проміжний шлях (ліворуч) і стабільна дифузія (праворуч)Наразі Stable Diffusion має понад тисячу моделей, доступних для завантаження. Кожну модель можна додатково модифікувати за допомогою моделей LoRA, моделей вбудовування та гіпермереж; Midjourney обмежений щодо моделей. Доступні лише моделі від v1 до v5, а також деякі спеціальні моделі, як-от niji, test, testp і HD. Є додатковий параметр для «стилізації» зображення. Але загалом він все одно тьмяний у порівнянні зі стабільною дифузією.## **посібник користувача**Насправді ці генератори зображень зі штучним інтелектом мають свої переваги. На основі досвіду цих трьох алгоритмів ми узагальнили деякі основні моменти та відмінності. Конкретний вибір можна визначити відповідно до ваших власних потреб.![](https://img.gateio.im/social/moments-bab2147faf-88e6615b1a-dd1a6f-62a40f) **1、DALL-E2**Інтерфейс цієї моделі простий і зрозумілий, і ви можете легко створювати зображення, не реєструючи сторонню платформу. Вам потрібно лише відвідати веб-сайт і ввести текст ключового слова у вікно генерації, щоб створити зображення.![](https://img.gateio.im/social/moments-bab2147faf-00c5248d94-dd1a6f-62a40f) перевага:l Простий у використанніl Творчість із гнучкістюl Стороння платформа не потрібнанедолік:l просте зображенняl Точність не високаl Можна створювати лише квадратні зображення**2、Проміжний шлях**На відміну від DALL-E 2, вам потрібно спочатку створити обліковий запис Discord, і вам потрібно ввести команди, як-от текст або зображення, щоб створити зображення.![](https://img.gateio.im/social/moments-bab2147faf-76abd5e268-dd1a6f-62a40f) перевага:l Зображення високої якостіl Користувачі можуть налаштувати співвідношення розмірів зображенняl Гнучке керування параметрами зображеннянедолік:l Це більш складний у використанніl Вимагати від користувачів реєстрації на Discordl Після закінчення швидкого часу час створення зображення значно збільшиться**3、Стабільна дифузія**І Stable Diffusion, і DALL·E-2 базуються на моделі дифузії, яка може малювати зображення відповідно до вхідних текстових дескрипторів (). Для повного створення чудових зображень на Stable Diffusion потрібна правильна модель + точні підказки + налаштування параметрів + технологія постобробки.![](https://img.gateio.im/social/moments-bab2147faf-77e2706d3b-dd1a6f-62a40f) перевага:l Робота в Інтернеті та встановлення моделей з відкритим кодом на інші платформиl Більше творчої свободиl Велика кількість елементів керування для налаштування параметрів зображеннянедолік:l Потрібне професійне та потужне обладнанняl Якість зображення дуже нестабільна, це залежить від версії, яку ви використовуєтеl Висока складність навчання, звичайним користувачам важко контролюватиПідсумовуючи, якщо у вас є чітка ціль, наприклад, ви архітектурний дизайнер, тоді Stable Diffusion краще задовольнить ваші творчі потреби, оскільки його краще контролювати. І якщо у вас немає чіткої мети творчого контролю та ви хочете виконувати творчу роботу з різним мисленням, то зручність і низький поріг Midjourney і DALL-E 2 будуть вашим найкращим вибором.Який інструмент AI ви віддаєте перевагу використанню? Як це застосовується в трудовому житті? Ласкаво просимо поділитися з нами в коментарях!