Нещодавнє дослідження, проведене Apple, значно покращило продуктивність дифузійних моделей на зображеннях з високою роздільною здатністю.
За допомогою цього методу кількість тренувальних кроків зменшується більш ніж на сімдесят відсотків для зображення з однаковою роздільною здатністю.
При роздільній здатності 1024 ×1024 якість зображення безпосередньо повна, а деталі добре видно.
Apple назвала це досягнення MDM, DM — це скорочення від Diffusion Model, а перша M — Matryoshka.
Подібно до справжньої матрьошки, MDM вкладає процеси з низькою роздільною здатністю в процеси з високою роздільною здатністю, і це вкладено в кілька шарів.
Дифузійні процеси з високою і низькою роздільною здатністю здійснюються одночасно, що значно знижує споживання ресурсів традиційної дифузійної моделі в процесі з високою роздільною здатністю.
Для зображень із роздільною здатністю 256×256 у середовищі з розміром партії 1024 традиційна дифузійна модель має тренувати 1,5 мільйона кроків, тоді як MDM потребує лише 390 000, що зменшується більш ніж на 70%.
Крім того, MDM застосовує наскрізне навчання, не покладається на конкретні набори даних і попередньо навчені моделі, але при цьому забезпечує якість генерації та прискорюється, а також є гнучким у використанні.
Можна не тільки малювати зображення з високою роздільною здатністю, але й створювати відео з роздільною здатністю 16×256².
Деякі користувачі мережі прокоментували, що Apple нарешті пов'язала текст із зображенням.
Отже, як це робить технологія MDM «матрьошка»?
Цілісне та прогресивне поєднання
Перед початком навчання дані потрібно попередньо обробити, а зображення з високою роздільною здатністю будуть дискретизовані за певним алгоритмом для отримання різних версій роздільної здатності.
Ці дані з різною роздільною здатністю потім використовуються для спільного моделювання UNet, при цьому малі UNet обробляють низьку роздільну здатність і вкладаються у велику обробку UNet з високою роздільною здатністю.
Завдяки з'єднанням із перехресною роздільною здатністю функції та параметри можуть бути спільними між UNets різних розмірів.
Навчання МДМ – це поступовий процес.
Незважаючи на те, що моделювання є спільним, процес навчання починається не з високої роздільної здатності, а поступово масштабується з низької.
Це дозволяє уникнути величезної кількості обчислень і дозволяє попередньо навчити UNet з низькою роздільною здатністю, щоб прискорити процес навчання з високою роздільною здатністю.
Під час тренувального процесу навчальні дані з вищою роздільною здатністю поступово додаються до загального процесу, щоб модель могла адаптуватися до роздільної здатності, що поступово зростає, і плавно переходити до кінцевого процесу з високою роздільною здатністю.
Однак в цілому, після поступового додавання процесів з високою роздільною здатністю, навчання MDM все ще залишається наскрізним спільним процесом.
При спільному навчанні при різних роздільних здатностях функція втрат на декількох роздільних здатностях бере участь в оновленні параметрів разом, уникаючи накопичення помилок, викликаних багатоступеневим навчанням.
Кожна роздільна здатність має відповідну втрату реконструкції елемента даних, а втрата різних роздільних здатностей зважується та об'єднується, серед яких вага втрат низької роздільної здатності є більшою, щоб забезпечити якість генерації.
На етапі висновування MDM також застосовує комбінацію паралельних і прогресивних стратегій.
Крім того, MDM також використовує попередньо навчену модель класифікації зображень (CFG), щоб спрямовувати згенеровані зразки для оптимізації в більш розумному напрямку та додавати шум до зразків із низькою роздільною здатністю, щоб наблизити їх до розподілу зразків із високою роздільною здатністю.
Отже, наскільки ефективним є MDM?
Менше параметрів, щоб відповідати SOTA
Що стосується зображень, то на наборах даних ImageNet і CC12M FID MDM (чим менше значення, тим краще) і CLIP працюють значно краще, ніж звичайні дифузійні моделі.
FID використовується для оцінки якості самого зображення, а CLIP описує ступінь відповідності між зображенням і текстовою інструкцією.
У порівнянні з моделями SOTA, такими як DALL E і IMAGEN, продуктивність MDM також близька, але тренувальні параметри MDM набагато менше, ніж у цих моделей.
Вона не тільки краща за звичайні дифузійні моделі, але й перевершує інші каскадні дифузійні моделі.
Результати абляційних експериментів показують, що чим більше кроків тренування з низькою роздільною здатністю, тим очевидніше посилення ефекту MDM. З іншого боку, чим більше рівнів вкладеності, тим менше тренувальних кроків потрібно для досягнення того ж результату CLIP.
Вибір параметрів CFG є результатом компромісу між FID і CLIP після багаторазових тестів (високий показник CLIP по відношенню до підвищеної сили CFG).
Паперова адреса:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Дифузійна модель «матрьошка» від Apple, кількість тренувальних кроків зменшено на 70%!
Першоджерело: Qubits
Нещодавнє дослідження, проведене Apple, значно покращило продуктивність дифузійних моделей на зображеннях з високою роздільною здатністю.
За допомогою цього методу кількість тренувальних кроків зменшується більш ніж на сімдесят відсотків для зображення з однаковою роздільною здатністю.
При роздільній здатності 1024 ×1024 якість зображення безпосередньо повна, а деталі добре видно.
Подібно до справжньої матрьошки, MDM вкладає процеси з низькою роздільною здатністю в процеси з високою роздільною здатністю, і це вкладено в кілька шарів.
Дифузійні процеси з високою і низькою роздільною здатністю здійснюються одночасно, що значно знижує споживання ресурсів традиційної дифузійної моделі в процесі з високою роздільною здатністю.
Крім того, MDM застосовує наскрізне навчання, не покладається на конкретні набори даних і попередньо навчені моделі, але при цьому забезпечує якість генерації та прискорюється, а також є гнучким у використанні.
Цілісне та прогресивне поєднання
Ці дані з різною роздільною здатністю потім використовуються для спільного моделювання UNet, при цьому малі UNet обробляють низьку роздільну здатність і вкладаються у велику обробку UNet з високою роздільною здатністю.
Завдяки з'єднанням із перехресною роздільною здатністю функції та параметри можуть бути спільними між UNets різних розмірів.
Незважаючи на те, що моделювання є спільним, процес навчання починається не з високої роздільної здатності, а поступово масштабується з низької.
Це дозволяє уникнути величезної кількості обчислень і дозволяє попередньо навчити UNet з низькою роздільною здатністю, щоб прискорити процес навчання з високою роздільною здатністю.
Під час тренувального процесу навчальні дані з вищою роздільною здатністю поступово додаються до загального процесу, щоб модель могла адаптуватися до роздільної здатності, що поступово зростає, і плавно переходити до кінцевого процесу з високою роздільною здатністю.
При спільному навчанні при різних роздільних здатностях функція втрат на декількох роздільних здатностях бере участь в оновленні параметрів разом, уникаючи накопичення помилок, викликаних багатоступеневим навчанням.
Кожна роздільна здатність має відповідну втрату реконструкції елемента даних, а втрата різних роздільних здатностей зважується та об'єднується, серед яких вага втрат низької роздільної здатності є більшою, щоб забезпечити якість генерації.
На етапі висновування MDM також застосовує комбінацію паралельних і прогресивних стратегій.
Крім того, MDM також використовує попередньо навчену модель класифікації зображень (CFG), щоб спрямовувати згенеровані зразки для оптимізації в більш розумному напрямку та додавати шум до зразків із низькою роздільною здатністю, щоб наблизити їх до розподілу зразків із високою роздільною здатністю.
Отже, наскільки ефективним є MDM?
Менше параметрів, щоб відповідати SOTA
Що стосується зображень, то на наборах даних ImageNet і CC12M FID MDM (чим менше значення, тим краще) і CLIP працюють значно краще, ніж звичайні дифузійні моделі.
FID використовується для оцінки якості самого зображення, а CLIP описує ступінь відповідності між зображенням і текстовою інструкцією.