Диффузионная модель «матрешка» от Apple, количество тренировочных шагов сокращено на 70%!

Первоисточник: Qubits

Источник изображения: Generated by Unbounded AI

Недавнее исследование, проведенное компанией Apple, значительно улучшило производительность диффузионных моделей на изображениях с высоким разрешением.

При использовании этого метода количество шагов обучения сокращается более чем на семьдесят процентов для изображения с тем же разрешением.

При разрешении 1024 ×1024 качество изображения прям полное, а детали отчетливо видны.

Apple назвала это достижение MDM, DM — это сокращение от Diffusion Model, а первая буква M означает Matryoshka.

Как и настоящая матрешка, MDM вкладывает процессы с низким разрешением в процессы с высоким разрешением, и он вложен в несколько слоев.

Процессы диффузии с высоким и низким разрешением выполняются одновременно, что значительно снижает ресурсоемкость традиционной диффузионной модели в процессе с высоким разрешением.

Для изображений с разрешением 256×256 в среде с размером пакета 1024 традиционной модели диффузии требуется обучить 1,5 миллиона шагов, в то время как MDM требуется только 390 000, что сокращается более чем на 70 %.

Кроме того, MDM использует сквозное обучение, не полагается на конкретные наборы данных и предварительно обученные модели, но при этом обеспечивает качество генерации при ускорении и является гибким в использовании.

Можно не только рисовать изображения в высоком разрешении, но и создавать видео с разрешением 16×256².

Некоторые пользователи сети отметили, что Apple наконец-то связала текст с изображением.

Итак, как же это делает технология «матрешки» от MDM?

Целостное и прогрессивное сочетание

Перед началом обучения данные необходимо предварительно обработать, а изображения с высоким разрешением будут передискретизированы по определенному алгоритму для получения различных версий разрешения.

Эти данные с различными разрешениями затем используются для совместного моделирования UNet, при этом малые UNet обрабатывают низкое разрешение и вкладываются в большие UNet, обрабатывая высокое разрешение.

Благодаря соединениям с перекрестным разрешением функции и параметры могут совместно использоваться сетями UNet разных размеров.

Обучение MDM — это постепенный процесс.

Несмотря на то, что моделирование является совместным, процесс обучения начинается не с высокого разрешения, а постепенно масштабируется от низкого.

Это позволяет избежать огромного объема вычислений и позволяет предварительно обучать UNet с низким разрешением, чтобы ускорить процесс обучения с высоким разрешением.

В процессе обучения обучающие данные с более высоким разрешением постепенно добавляются к общему процессу, чтобы модель могла адаптироваться к постепенно увеличивающемуся разрешению и плавно переходить к окончательному процессу с высоким разрешением.

Однако в целом, после постепенного добавления процессов с высоким разрешением, обучение MDM по-прежнему остается сквозным совместным процессом.

При совместном обучении при разных разрешениях функция потерь на нескольких разрешениях участвует в обновлении параметров совместно, избегая накопления ошибок, вызванных многоступенчатым обучением.

Каждое разрешение имеет соответствующие потери при реконструкции элемента данных, а потери различных разрешений взвешиваются и объединяются, среди которых вес потери при низком разрешении больше, чтобы обеспечить качество генерации.

На этапе логического вывода MDM также использует комбинацию параллельных и прогрессивных стратегий.

Кроме того, MDM также использует предварительно обученную модель классификации изображений (CFG) для направления сгенерированных образцов для оптимизации в более разумном направлении и добавления шума к выборкам с низким разрешением, чтобы приблизить их к распределению выборок с высоким разрешением.

Итак, насколько эффективен MDM?

Меньше параметров для сопоставления с SOTA

Что касается изображений, то в наборах данных ImageNet и CC12M FID MDM (чем ниже значение, тем лучше) и CLIP работают значительно лучше, чем обычные диффузионные модели.

FID используется для оценки качества самого изображения, а CLIP описывает степень соответствия между изображением и текстовой инструкцией.

По сравнению с моделями SOTA, такими как DALL E и IMAGEN, производительность MDM также близка, но параметры обучения MDM значительно меньше, чем у этих моделей.

Она не только лучше, чем обычные модели диффузии, но и превосходит другие модели каскадной диффузии.

Результаты экспериментов по абляции показывают, что чем больше шагов обучения с низким разрешением, тем более очевидно усиление эффекта МДМ. С другой стороны, чем больше уровней вложенности, тем меньше этапов обучения требуется для достижения того же результата CLIP.

Выбор параметров CFG является результатом компромисса между FID и CLIP после нескольких испытаний (высокий балл CLIP по сравнению с повышенной прочностью CFG).

Адрес доклада:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить