Недавнее исследование, проведенное компанией Apple, значительно улучшило производительность диффузионных моделей на изображениях с высоким разрешением.
При использовании этого метода количество шагов обучения сокращается более чем на семьдесят процентов для изображения с тем же разрешением.
При разрешении 1024 ×1024 качество изображения прям полное, а детали отчетливо видны.
Apple назвала это достижение MDM, DM — это сокращение от Diffusion Model, а первая буква M означает Matryoshka.
Как и настоящая матрешка, MDM вкладывает процессы с низким разрешением в процессы с высоким разрешением, и он вложен в несколько слоев.
Процессы диффузии с высоким и низким разрешением выполняются одновременно, что значительно снижает ресурсоемкость традиционной диффузионной модели в процессе с высоким разрешением.
Для изображений с разрешением 256×256 в среде с размером пакета 1024 традиционной модели диффузии требуется обучить 1,5 миллиона шагов, в то время как MDM требуется только 390 000, что сокращается более чем на 70 %.
Кроме того, MDM использует сквозное обучение, не полагается на конкретные наборы данных и предварительно обученные модели, но при этом обеспечивает качество генерации при ускорении и является гибким в использовании.
Можно не только рисовать изображения в высоком разрешении, но и создавать видео с разрешением 16×256².
Некоторые пользователи сети отметили, что Apple наконец-то связала текст с изображением.
Итак, как же это делает технология «матрешки» от MDM?
Целостное и прогрессивное сочетание
Перед началом обучения данные необходимо предварительно обработать, а изображения с высоким разрешением будут передискретизированы по определенному алгоритму для получения различных версий разрешения.
Эти данные с различными разрешениями затем используются для совместного моделирования UNet, при этом малые UNet обрабатывают низкое разрешение и вкладываются в большие UNet, обрабатывая высокое разрешение.
Благодаря соединениям с перекрестным разрешением функции и параметры могут совместно использоваться сетями UNet разных размеров.
Обучение MDM — это постепенный процесс.
Несмотря на то, что моделирование является совместным, процесс обучения начинается не с высокого разрешения, а постепенно масштабируется от низкого.
Это позволяет избежать огромного объема вычислений и позволяет предварительно обучать UNet с низким разрешением, чтобы ускорить процесс обучения с высоким разрешением.
В процессе обучения обучающие данные с более высоким разрешением постепенно добавляются к общему процессу, чтобы модель могла адаптироваться к постепенно увеличивающемуся разрешению и плавно переходить к окончательному процессу с высоким разрешением.
Однако в целом, после постепенного добавления процессов с высоким разрешением, обучение MDM по-прежнему остается сквозным совместным процессом.
При совместном обучении при разных разрешениях функция потерь на нескольких разрешениях участвует в обновлении параметров совместно, избегая накопления ошибок, вызванных многоступенчатым обучением.
Каждое разрешение имеет соответствующие потери при реконструкции элемента данных, а потери различных разрешений взвешиваются и объединяются, среди которых вес потери при низком разрешении больше, чтобы обеспечить качество генерации.
На этапе логического вывода MDM также использует комбинацию параллельных и прогрессивных стратегий.
Кроме того, MDM также использует предварительно обученную модель классификации изображений (CFG) для направления сгенерированных образцов для оптимизации в более разумном направлении и добавления шума к выборкам с низким разрешением, чтобы приблизить их к распределению выборок с высоким разрешением.
Итак, насколько эффективен MDM?
Меньше параметров для сопоставления с SOTA
Что касается изображений, то в наборах данных ImageNet и CC12M FID MDM (чем ниже значение, тем лучше) и CLIP работают значительно лучше, чем обычные диффузионные модели.
FID используется для оценки качества самого изображения, а CLIP описывает степень соответствия между изображением и текстовой инструкцией.
По сравнению с моделями SOTA, такими как DALL E и IMAGEN, производительность MDM также близка, но параметры обучения MDM значительно меньше, чем у этих моделей.
Она не только лучше, чем обычные модели диффузии, но и превосходит другие модели каскадной диффузии.
Результаты экспериментов по абляции показывают, что чем больше шагов обучения с низким разрешением, тем более очевидно усиление эффекта МДМ. С другой стороны, чем больше уровней вложенности, тем меньше этапов обучения требуется для достижения того же результата CLIP.
Выбор параметров CFG является результатом компромисса между FID и CLIP после нескольких испытаний (высокий балл CLIP по сравнению с повышенной прочностью CFG).
Адрес доклада:
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Диффузионная модель «матрешка» от Apple, количество тренировочных шагов сокращено на 70%!
Первоисточник: Qubits
Недавнее исследование, проведенное компанией Apple, значительно улучшило производительность диффузионных моделей на изображениях с высоким разрешением.
При использовании этого метода количество шагов обучения сокращается более чем на семьдесят процентов для изображения с тем же разрешением.
При разрешении 1024 ×1024 качество изображения прям полное, а детали отчетливо видны.
Как и настоящая матрешка, MDM вкладывает процессы с низким разрешением в процессы с высоким разрешением, и он вложен в несколько слоев.
Процессы диффузии с высоким и низким разрешением выполняются одновременно, что значительно снижает ресурсоемкость традиционной диффузионной модели в процессе с высоким разрешением.
Кроме того, MDM использует сквозное обучение, не полагается на конкретные наборы данных и предварительно обученные модели, но при этом обеспечивает качество генерации при ускорении и является гибким в использовании.
Целостное и прогрессивное сочетание
Эти данные с различными разрешениями затем используются для совместного моделирования UNet, при этом малые UNet обрабатывают низкое разрешение и вкладываются в большие UNet, обрабатывая высокое разрешение.
Благодаря соединениям с перекрестным разрешением функции и параметры могут совместно использоваться сетями UNet разных размеров.
Несмотря на то, что моделирование является совместным, процесс обучения начинается не с высокого разрешения, а постепенно масштабируется от низкого.
Это позволяет избежать огромного объема вычислений и позволяет предварительно обучать UNet с низким разрешением, чтобы ускорить процесс обучения с высоким разрешением.
В процессе обучения обучающие данные с более высоким разрешением постепенно добавляются к общему процессу, чтобы модель могла адаптироваться к постепенно увеличивающемуся разрешению и плавно переходить к окончательному процессу с высоким разрешением.
При совместном обучении при разных разрешениях функция потерь на нескольких разрешениях участвует в обновлении параметров совместно, избегая накопления ошибок, вызванных многоступенчатым обучением.
Каждое разрешение имеет соответствующие потери при реконструкции элемента данных, а потери различных разрешений взвешиваются и объединяются, среди которых вес потери при низком разрешении больше, чтобы обеспечить качество генерации.
На этапе логического вывода MDM также использует комбинацию параллельных и прогрессивных стратегий.
Кроме того, MDM также использует предварительно обученную модель классификации изображений (CFG) для направления сгенерированных образцов для оптимизации в более разумном направлении и добавления шума к выборкам с низким разрешением, чтобы приблизить их к распределению выборок с высоким разрешением.
Итак, насколько эффективен MDM?
Меньше параметров для сопоставления с SOTA
Что касается изображений, то в наборах данных ImageNet и CC12M FID MDM (чем ниже значение, тем лучше) и CLIP работают значительно лучше, чем обычные диффузионные модели.
FID используется для оценки качества самого изображения, а CLIP описывает степень соответствия между изображением и текстовой инструкцией.