Дифузійна модель «матрьошка» від Apple, кількість тренувальних кроків зменшено на 70%!

Першоджерело: Qubits

Джерело зображення: Створено Unbounded AI

Нещодавнє дослідження, проведене Apple, значно покращило продуктивність дифузійних моделей на зображеннях з високою роздільною здатністю.

За допомогою цього методу кількість тренувальних кроків зменшується більш ніж на сімдесят відсотків для зображення з однаковою роздільною здатністю.

При роздільній здатності 1024 ×1024 якість зображення безпосередньо повна, а деталі добре видно.

Apple назвала це досягнення MDM, DM — це скорочення від Diffusion Model, а перша M — Matryoshka.

Подібно до справжньої матрьошки, MDM вкладає процеси з низькою роздільною здатністю в процеси з високою роздільною здатністю, і це вкладено в кілька шарів.

Дифузійні процеси з високою і низькою роздільною здатністю здійснюються одночасно, що значно знижує споживання ресурсів традиційної дифузійної моделі в процесі з високою роздільною здатністю.

Для зображень із роздільною здатністю 256×256 у середовищі з розміром партії 1024 традиційна дифузійна модель має тренувати 1,5 мільйона кроків, тоді як MDM потребує лише 390 000, що зменшується більш ніж на 70%.

Крім того, MDM застосовує наскрізне навчання, не покладається на конкретні набори даних і попередньо навчені моделі, але при цьому забезпечує якість генерації та прискорюється, а також є гнучким у використанні.

Можна не тільки малювати зображення з високою роздільною здатністю, але й створювати відео з роздільною здатністю 16×256².

Деякі користувачі мережі прокоментували, що Apple нарешті пов'язала текст із зображенням.

Отже, як це робить технологія MDM «матрьошка»?

Цілісне та прогресивне поєднання

Перед початком навчання дані потрібно попередньо обробити, а зображення з високою роздільною здатністю будуть дискретизовані за певним алгоритмом для отримання різних версій роздільної здатності.

Ці дані з різною роздільною здатністю потім використовуються для спільного моделювання UNet, при цьому малі UNet обробляють низьку роздільну здатність і вкладаються у велику обробку UNet з високою роздільною здатністю.

Завдяки з'єднанням із перехресною роздільною здатністю функції та параметри можуть бути спільними між UNets різних розмірів.

Навчання МДМ – це поступовий процес.

Незважаючи на те, що моделювання є спільним, процес навчання починається не з високої роздільної здатності, а поступово масштабується з низької.

Це дозволяє уникнути величезної кількості обчислень і дозволяє попередньо навчити UNet з низькою роздільною здатністю, щоб прискорити процес навчання з високою роздільною здатністю.

Під час тренувального процесу навчальні дані з вищою роздільною здатністю поступово додаються до загального процесу, щоб модель могла адаптуватися до роздільної здатності, що поступово зростає, і плавно переходити до кінцевого процесу з високою роздільною здатністю.

Однак в цілому, після поступового додавання процесів з високою роздільною здатністю, навчання MDM все ще залишається наскрізним спільним процесом.

При спільному навчанні при різних роздільних здатностях функція втрат на декількох роздільних здатностях бере участь в оновленні параметрів разом, уникаючи накопичення помилок, викликаних багатоступеневим навчанням.

Кожна роздільна здатність має відповідну втрату реконструкції елемента даних, а втрата різних роздільних здатностей зважується та об'єднується, серед яких вага втрат низької роздільної здатності є більшою, щоб забезпечити якість генерації.

На етапі висновування MDM також застосовує комбінацію паралельних і прогресивних стратегій.

Крім того, MDM також використовує попередньо навчену модель класифікації зображень (CFG), щоб спрямовувати згенеровані зразки для оптимізації в більш розумному напрямку та додавати шум до зразків із низькою роздільною здатністю, щоб наблизити їх до розподілу зразків із високою роздільною здатністю.

Отже, наскільки ефективним є MDM?

Менше параметрів, щоб відповідати SOTA

Що стосується зображень, то на наборах даних ImageNet і CC12M FID MDM (чим менше значення, тим краще) і CLIP працюють значно краще, ніж звичайні дифузійні моделі.

FID використовується для оцінки якості самого зображення, а CLIP описує ступінь відповідності між зображенням і текстовою інструкцією.

У порівнянні з моделями SOTA, такими як DALL E і IMAGEN, продуктивність MDM також близька, але тренувальні параметри MDM набагато менше, ніж у цих моделей.

Вона не тільки краща за звичайні дифузійні моделі, але й перевершує інші каскадні дифузійні моделі.

Результати абляційних експериментів показують, що чим більше кроків тренування з низькою роздільною здатністю, тим очевидніше посилення ефекту MDM. З іншого боку, чим більше рівнів вкладеності, тим менше тренувальних кроків потрібно для досягнення того ж результату CLIP.

Вибір параметрів CFG є результатом компромісу між FID і CLIP після багаторазових тестів (високий показник CLIP по відношенню до підвищеної сили CFG).

Паперова адреса:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити