Неожиданно OpenAI воспользовалась «конкурентом» Stable Diffusion.
На горячем гала-концерте «AI Spring Festival Gala» компания OpenAI представила сразу две работы, одна из которых — Consistency Decoder, специально разработанная для модели VAE SD.
Он обеспечивает более высокое качество и стабильную генерацию изображений, таких как несколько лиц, изображения с текстом и управление линиями.
Блоггер Big V анализирует, что этот декодер должен быть Dall· E 3 с той же моделью, на странице проекта GitHub OpenAI также предоставляет Dall· Э 3 Диссертация.
В частности, он поддерживает версию Stable Diffusion 1.4/1.5.
На странице проекта есть только один пример, и не написано конкретное обучение, которое называется «открытый исходный код людьми, которые мало говорят».
Вы можете просто загрузить и использовать его.
И этот когерентный декодер может многое предложить.
Он основан на моделях согласованности, предложенных Ильей, одним из создателей и главным научным сотрудником OpenAI, и Сун Янгом, восходящей китайской звездой OpenAI.
В первом полугодии, когда эта модель была с открытым исходным кодом, она вызвала шок в отрасли и была оценена как «модель конечной диффузии».
Не так давно Song Yang и его коллеги также оптимизировали метод обучения модели, что может еще больше улучшить качество генерации изображений.
Еще одним большим открытым исходным кодом дня разработчика является голосовая модель Whisper 3. Это также работа легенд, а Алек Рэдфорд сыграл важную роль в создании серии GPT.
Пользователи сети не могут не вздохнуть: мне по-прежнему нравится видеть OpenAI с открытым исходным кодом, и я с нетерпением жду продолжения открытия новых моделей.
Модель согласованности завершает реэволюцию
Начнем с первой версии моделей согласованности.
Он призван решить проблему медленной генерации изображений, вызванную постепенной итерацией диффузионных моделей. Для создания 64 изображений размером около 256×256 требуется всего 3,5 секунды.
Она имеет два основных преимущества перед диффузной моделью:
Во-первых, высококачественные образцы изображений могут быть сгенерированы напрямую, без состязательного обучения.
Во-вторых, по сравнению с диффузной моделью, которая может потребовать сотен или даже тысяч итераций, модели согласованности требуется всего один или два шага для выполнения различных задач по работе с изображениями.
Раскрашивание, шумоподавление, сверхвысокое разрешение и т.д. можно выполнить за несколько шагов, без необходимости специального обучения для выполнения этих задач. (Конечно, эффект генерации лучше, если обучение происходит с меньшим количеством выстрелов)
В принципе, модель согласованности напрямую отображает случайный шум на сложные изображения, и на выходе получается одна и та же точка на той же траектории, поэтому она реализует одношаговую генерацию.
В статье предложены два метода обучения, один из которых основан на дистилляции консистенции, использовании предварительно обученной модели диффузии для генерации смежных пар данных, и обучении согласованной модели путем минимизации разницы между выходными данными модели.
Другим подходом является независимое обучение, при котором согласованная модель обучается как независимо сгенерированная модель.
Экспериментальные результаты показывают, что модель консистенции превосходит существующие методы дистилляции, такие как прогрессивная дистилляция, с точки зрения одноступенчатого и малоступенчатого отбора проб.
При обучении в качестве автономной генеративной модели согласованную модель можно сравнить с существующими одношаговыми несостязательными генеративными моделями в стандартных эталонных агрегатах, таких как CIFAR-10, ImageNet 64×64 и LSUN 256×256.
Второе издание статьи, опубликованное полгода спустя, оптимизирует метод обучения.
Оптимизируя функцию веса, встраивание и выпадение шума, согласованная модель может достичь хорошего качества генерации, не полагаясь на изученные функции.
Он улучшает выбор весовой функции, так что она уменьшается по мере увеличения уровня шума, что приводит к большему весу потери согласованности при меньших уровнях шума, тем самым улучшая качество образца.
В то же время чувствительность слоя встраивания шума настроена таким образом, чтобы снизить чувствительность к небольшим различиям в шумах, что способствует повышению стабильности непрерывного обучения с временной согласованностью.
Обнаружено, что качество изображения может быть дополнительно улучшено за счет использования большого выпадения, удаления EMA из сети учителя и замены функции потерь Псевдо-Хубера на изученное расстояние признака (например, LPIPS) в модели консенсуса.
И ещё кое-что
Возвращаясь к новейшему декодеру с открытым исходным кодом, можно сказать, что наступила первая волна измеренного опыта.
В настоящее время некоторые из наблюдаемых эффектов не очевидны, и многие люди сообщают, что скорость бега медленная.
Но это все еще самое раннее испытание, и в будущем могут быть и другие улучшения.
Стоит отметить, что Сун Янг (Song Yang), который руководил запуском модели согласованности, молод, но был оценен как OG (ветеран) в кругу диффузионных моделей.
△От ученого Nvidia AI Джима Фана (Jim Fan) из Twitter
В этом году, благодаря модели последовательности, Сун Ян также прославился. Этот большой парень поступил в Университет Цинхуа в возрасте 16 лет как лучший студент в области естественных наук, и о нем можно рассказать больше историй: Популярная восходящая звезда OpenAI Сун Ян: Последнее исследование было удостоено награды «End Diffusion Model», и он поступил в Университет Цинхуа в возрасте 16 лет
Адрес:
[1]
[2]
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
OpenAI сохраняет стабильную диффузию! E3 с тем же декодером, от Ильи Сун Яна и так далее
Источник: Quantum Dimension
На горячем гала-концерте «AI Spring Festival Gala» компания OpenAI представила сразу две работы, одна из которых — Consistency Decoder, специально разработанная для модели VAE SD.
Он обеспечивает более высокое качество и стабильную генерацию изображений, таких как несколько лиц, изображения с текстом и управление линиями.
На странице проекта есть только один пример, и не написано конкретное обучение, которое называется «открытый исходный код людьми, которые мало говорят».
Он основан на моделях согласованности, предложенных Ильей, одним из создателей и главным научным сотрудником OpenAI, и Сун Янгом, восходящей китайской звездой OpenAI.
В первом полугодии, когда эта модель была с открытым исходным кодом, она вызвала шок в отрасли и была оценена как «модель конечной диффузии».
Не так давно Song Yang и его коллеги также оптимизировали метод обучения модели, что может еще больше улучшить качество генерации изображений.
Пользователи сети не могут не вздохнуть: мне по-прежнему нравится видеть OpenAI с открытым исходным кодом, и я с нетерпением жду продолжения открытия новых моделей.
Модель согласованности завершает реэволюцию
Начнем с первой версии моделей согласованности.
Он призван решить проблему медленной генерации изображений, вызванную постепенной итерацией диффузионных моделей. Для создания 64 изображений размером около 256×256 требуется всего 3,5 секунды.
Во-первых, высококачественные образцы изображений могут быть сгенерированы напрямую, без состязательного обучения.
Во-вторых, по сравнению с диффузной моделью, которая может потребовать сотен или даже тысяч итераций, модели согласованности требуется всего один или два шага для выполнения различных задач по работе с изображениями.
Раскрашивание, шумоподавление, сверхвысокое разрешение и т.д. можно выполнить за несколько шагов, без необходимости специального обучения для выполнения этих задач. (Конечно, эффект генерации лучше, если обучение происходит с меньшим количеством выстрелов)
В принципе, модель согласованности напрямую отображает случайный шум на сложные изображения, и на выходе получается одна и та же точка на той же траектории, поэтому она реализует одношаговую генерацию.
Другим подходом является независимое обучение, при котором согласованная модель обучается как независимо сгенерированная модель.
Экспериментальные результаты показывают, что модель консистенции превосходит существующие методы дистилляции, такие как прогрессивная дистилляция, с точки зрения одноступенчатого и малоступенчатого отбора проб.
При обучении в качестве автономной генеративной модели согласованную модель можно сравнить с существующими одношаговыми несостязательными генеративными моделями в стандартных эталонных агрегатах, таких как CIFAR-10, ImageNet 64×64 и LSUN 256×256.
Оптимизируя функцию веса, встраивание и выпадение шума, согласованная модель может достичь хорошего качества генерации, не полагаясь на изученные функции.
Он улучшает выбор весовой функции, так что она уменьшается по мере увеличения уровня шума, что приводит к большему весу потери согласованности при меньших уровнях шума, тем самым улучшая качество образца.
В то же время чувствительность слоя встраивания шума настроена таким образом, чтобы снизить чувствительность к небольшим различиям в шумах, что способствует повышению стабильности непрерывного обучения с временной согласованностью.
Обнаружено, что качество изображения может быть дополнительно улучшено за счет использования большого выпадения, удаления EMA из сети учителя и замены функции потерь Псевдо-Хубера на изученное расстояние признака (например, LPIPS) в модели консенсуса.
И ещё кое-что
Возвращаясь к новейшему декодеру с открытым исходным кодом, можно сказать, что наступила первая волна измеренного опыта.
В настоящее время некоторые из наблюдаемых эффектов не очевидны, и многие люди сообщают, что скорость бега медленная.
Но это все еще самое раннее испытание, и в будущем могут быть и другие улучшения.
В этом году, благодаря модели последовательности, Сун Ян также прославился. Этот большой парень поступил в Университет Цинхуа в возрасте 16 лет как лучший студент в области естественных наук, и о нем можно рассказать больше историй: Популярная восходящая звезда OpenAI Сун Ян: Последнее исследование было удостоено награды «End Diffusion Model», и он поступил в Университет Цинхуа в возрасте 16 лет
Адрес:
[1]
[2]