OpenAI рятує стабільну дифузію! Е3 з тим же декодером, від Іллі Сонг Ян і так далі

Джерело: Quantum Dimension

Джерело зображення: Створено Unbounded AI

Несподівано OpenAI скористалася «конкурентом» Stable Diffusion.

На гарячому гала-концерті «AI Spring Festival Gala» OpenAI відкрила вихідний код двох робіт за один раз, одна з яких — Consistency Decoder, яка призначена спеціально для моделі VAE SD.

Це забезпечує більш якісну та стабільну генерацію зображень, таких як кілька облич, зображення з текстом та керування лініями.

Блогер Big V аналізує, що цей декодер має бути Dall· E 3 з тією ж моделлю, на сторінці проекту GitHub OpenAI також надає Dall· Е 3 Дипломна робота.

Версія, яку він конкретно підтримує, це Stable Diffusion 1.4/1.5.

На сторінці проекту є лише один приклад, а конкретного тренінгу не написано, що називається «open source людьми, які мало говорять».

Ви можете просто завантажити та використовувати його.

І цей зв'язний декодер може багато чого запропонувати.

Він походить від моделей послідовності, запропонованих Іллею, співтворцем і головним науковим співробітником OpenAI, і Сун Яном, висхідною китайською зіркою OpenAI.

У першому півріччі, коли ця модель була з відкритим вихідним кодом, вона викликала шок в індустрії і була оцінена як «модель кінцевої дифузії».

Не так давно Song Yang et al. також оптимізували метод навчання моделі, що може ще більше покращити якість генерації зображень.

Ще одним великим відкритим вихідним кодом дня розробника є голосова модель Whisper 3. Це також справа рук легенд, а Алек Редфорд зіграв важливу роль у створенні серії GPT.

Користувачі мережі не можуть не зітхнути: мені все ще подобається бачити відкритий вихідний код OpenAI, і я з нетерпінням чекаю продовження відкриття нових моделей.

Модель послідовності завершує рееволюцію

Почнемо з першої версії моделей узгодженості.

Він призначений для вирішення проблеми повільної генерації зображень, викликаної поступовою ітерацією дифузійних моделей. Потрібно лише 3,5 секунди, щоб згенерувати 64 зображення приблизно 256×256.

Вона має дві основні переваги перед дифузійною моделлю:

По-перше, високоякісні зразки зображень можна генерувати безпосередньо без змагальної підготовки.

По-друге, у порівнянні з дифузійною моделлю, яка може вимагати сотень або навіть тисяч ітерацій, моделі узгодженості потрібен лише один або два кроки для виконання різноманітних завдань зображення.

Розфарбовування, знешумлення, надвисока роздільна здатність тощо можна виконати за кілька кроків, без необхідності явного навчання для цих завдань. (Звичайно, ефект генерації кращий, якщо навчання відбувається з меншою кількістю пострілів)

В принципі, модель узгодженості безпосередньо відображає випадковий шум на складні зображення, а на виході знаходиться та сама точка на тій самій траєкторії, тому вона реалізує однокрокову генерацію.

У статті запропоновано два методи навчання, один з яких базується на послідовній дистиляції, використанні попередньо навченої дифузійної моделі для генерації сусідніх пар даних, і навчанні узгодженої моделі шляхом мінімізації різниці між виходами моделі.

Іншим підходом є самостійне навчання, де послідовна модель тренується як незалежно згенерована модель.

Результати експериментів показують, що модель консистенції перевершує існуючі методи дистиляції, такі як прогресивна дистиляція, з точки зору одноступеневого та низькоступінчастого відбору проб.

При навчанні як автономної генеративної моделі узгоджену модель можна порівняти з існуючими однокроковими незмагальними генеративними моделями в стандартних еталонних агрегатах, таких як CIFAR-10, ImageNet 64×64 і LSUN 256×256.

Друге видання статті, опубліковане через півроку, оптимізує методику навчання.

Оптимізуючи функцію ваги, шумозаглушення та випадання, послідовна модель може досягти хорошої якості генерації, не покладаючись на вивчені функції.

Це покращує вибір функції ваги таким чином, щоб вона зменшувалася зі збільшенням рівня шуму, що призводить до більшої втрати ваги консистенції при менших рівнях шуму, таким чином покращуючи якість зразка.

У той же час чутливість шару, що вбудовує шум, регулюється для зниження чутливості до невеликих перепадів шумів, що сприяє підвищенню стабільності безперервного тренування узгодженості часу.

З'ясовано, що якість зображення може бути додатково покращена за рахунок використання великого випадання, видалення EMA з мережі вчителів та заміни функції втрати Псевдо-Губера на вивчену відстань об'єктів (наприклад, LPIPS) у моделі консенсусу.

Ще одне

Повертаючись до новітнього декодера з відкритим вихідним кодом, настала перша хвиля виміряного досвіду.

В даний час деякі з помічених ефектів не очевидні, і багато людей повідомляють, що швидкість бігу низька.

Але це все ще найраніший тест, і в майбутньому може бути більше покращень.

Варто згадати, що Сун Ян, який керував запуском моделі послідовності, молодий, але був оцінений як OG (ветеран) у колі дифузійних моделей.

Від вченого зі штучного інтелекту Nvidia Джима Фана у Twitter

Цього року з моделлю послідовності також відомий Сун Ян. Цей великий хлопець вступив до Університету Цінхуа у віці 16 років як найкращий студент природничих наук, і про нього можна почути більше історій: Популярна висхідна зірка OpenAI Сун Ян: Останнє дослідження було нагороджено «Моделлю кінця дифузії», а в 16 років він вступив до Університету Цінхуа

Адреса:
[1]
[2]

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити