El modelo de difusión de la "muñeca matrioska" de Apple, ¡el número de pasos de entrenamiento se reduce en un 70%!

Fuente original: Qubits

Fuente de la imagen: Generado por Unbounded AI

Un estudio reciente de Apple ha mejorado drásticamente el rendimiento de los modelos de difusión en imágenes de alta resolución.

Con este método, el número de pasos de entrenamiento se reduce en más del setenta por ciento para la misma resolución de imagen.

Con una resolución de 1024 ×1024, la calidad de imagen es directamente completa y los detalles son claramente visibles.

Apple llamó a este logro MDM, DM es la abreviatura de Diffusion Model y la primera M significa Matryoshka.

Al igual que una muñeca matrioska real, MDM anida procesos de baja resolución en procesos de alta resolución y está anidado en múltiples capas.

Los procesos de difusión de alta y baja resolución se llevan a cabo simultáneamente, lo que reduce en gran medida el consumo de recursos del modelo de difusión tradicional en el proceso de alta resolución.

Para imágenes con una resolución de 256×256, en un entorno con un tamaño de lote de 1024, el modelo de difusión tradicional necesita entrenar 1,5 millones de pasos, mientras que MDM solo necesita 390.000, lo que se reduce en más del 70%.

Además, MDM adopta el entrenamiento de extremo a extremo, no se basa en conjuntos de datos específicos ni modelos previamente entrenados, y aún así garantiza la calidad de la generación al tiempo que se acelera, y es flexible de usar.

No solo se pueden dibujar imágenes de alta resolución, sino que también se pueden componer videos de 16×256².

Algunos internautas comentaron que Apple finalmente conectó el texto con la imagen.

Entonces, ¿cómo lo hace la tecnología de la "muñeca matrioska" de MDM?

Combinación holística y progresiva

Antes de comenzar el entrenamiento, los datos deben preprocesarse y las imágenes de alta resolución se volverán a muestrear con un determinado algoritmo para obtener diferentes versiones de resolución.

Estos datos de diferentes resoluciones se utilizan para el modelado conjunto de UNet, con un pequeño procesamiento de UNet de baja resolución y anidamiento en un gran UNet que procesa alta resolución.

Con las conexiones de resolución cruzada, las características y los parámetros se pueden compartir entre UNets de diferentes tamaños.

La formación en MDM es un proceso gradual.

Aunque el modelado es conjunto, el proceso de entrenamiento no comienza con alta resolución, sino que se escala gradualmente desde baja resolución.

Esto evita la gran cantidad de cómputo y permite el entrenamiento previo de UNet de baja resolución para acelerar el proceso de entrenamiento de alta resolución.

Durante el proceso de entrenamiento, los datos de entrenamiento de mayor resolución se agregan gradualmente al proceso general, de modo que el modelo pueda adaptarse a la resolución progresivamente creciente y realizar una transición sin problemas al proceso final de alta resolución.

Sin embargo, en general, después de la adición gradual de procesos de alta resolución, la capacitación en MDM sigue siendo un proceso conjunto de extremo a extremo.

En el entrenamiento conjunto con diferentes resoluciones, la función de pérdida en múltiples resoluciones participa en la actualización de parámetros juntas, evitando la acumulación de errores causados por el entrenamiento de varias etapas.

Cada resolución tiene la correspondiente pérdida de reconstrucción del elemento de datos, y la pérdida de diferentes resoluciones se pondera y fusiona, entre las cuales el peso de pérdida de baja resolución es mayor para garantizar la calidad de la generación.

En la fase de inferencia, MDM también adopta una combinación de estrategias paralelas y progresivas.

Además, MDM también utiliza un modelo de clasificación de imágenes (CFG) previamente entrenado para guiar las muestras generadas para optimizarlas en una dirección más razonable y agregar ruido a las muestras de baja resolución para acercarlas a la distribución de muestras de alta resolución.

Entonces, ¿qué tan efectivo es MDM?

Menos parámetros para que coincidan con SOTA

En términos de imágenes, en los conjuntos de datos ImageNet y CC12M, el FID de MDM (cuanto menor sea el valor, mejor) y CLIP funcionan significativamente mejor que los modelos de difusión ordinarios.

FID se utiliza para evaluar la calidad de la imagen en sí, y CLIP describe el grado de coincidencia entre la imagen y la instrucción de texto.

En comparación con los modelos SOTA como DALL E e IMAGEN, el rendimiento de MDM también está cerca, pero los parámetros de entrenamiento de MDM son mucho menores que los de estos modelos.

No solo es mejor que los modelos de difusión ordinarios, sino que MDM también supera a otros modelos de difusión en cascada.

Los resultados de los experimentos de ablación muestran que cuantos más pasos de entrenamiento de baja resolución, más obvia es la mejora del efecto MDM. Por otro lado, cuantos más niveles de anidamiento, menos pasos de entrenamiento se requieren para lograr la misma puntuación CLIP.

La elección de los parámetros de CFG es el resultado de un compromiso entre FID y CLIP después de múltiples pruebas (alta puntuación de CLIP en relación con una mayor resistencia de CFG).

Dirección del papel:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)