¡Terminando con el modelo de difusión, IGN genera imágenes fotorrealistas en un solo paso!UC BerkeleyGoogle innova LLM, y los dramas estadounidenses se convierten en la fuente de inspiración
Se avecina un nuevo paradigma para los modelos de IA generativa. Google de la Universidad de California en Berkeley propuso una red generativa idempotente (IGN) que puede generar gráficos en un solo paso.
Fuente de la imagen: Generada por Unbounded AI
¿Se eliminará el modelo de difusión, que se ha vuelto popular en todo el cielo?
Actualmente, los modelos de IA generativa, como las GAN, los modelos de difusión o los modelos de consenso, generan imágenes mediante la asignación de entradas a salidas que corresponden a distribuciones de datos de destino.
Normalmente, este modelo necesita aprender muchas imágenes reales antes de poder intentar garantizar las características reales de las imágenes generadas.
Recientemente, investigadores de la Universidad de California en Berkeley y Google propusieron un nuevo modelo generativo llamado redes generativas idempotentes (IGN).
Dirección:
Los IGN pueden generar imágenes fotorrealistas a partir de una amplia variedad de entradas, como ruido aleatorio, gráficos simples, etc., en un solo paso, sin necesidad de múltiples iteraciones.
Este modelo está pensado para ser un "proyector global" que puede asignar cualquier dato de entrada a una distribución de datos de destino.
En resumen, este debe ser el caso de los modelos de generación de imágenes de propósito general en el futuro.
Curiosamente, una escena eficiente en Seinfeld resultó ser la inspiración del autor.
Este escenario resume muy bien el concepto de operador idempotente, que se refiere al hecho de que la misma entrada se repite durante una operación, y el resultado es siempre el mismo.
a saber
Como señala con humor Jerry Seinfeld, algunas acciones de la vida real también pueden considerarse idempotentes.
Red generativa idempotente
Hay dos diferencias importantes entre el IGN y el GAN y los modelos de difusión:
A diferencia de GAN, IGN no requiere un generador y discriminador separados, es un modelo "autoadversarial" que genera y discrimina al mismo tiempo.
A diferencia del modelo de difusión, que realiza pasos incrementales, IGN intenta asignar entradas a distribuciones de datos en un solo paso.
Entonces, ¿cómo surgió el modelo generativo idempotente (IGN)?
Un ejemplo de una parte del código de PyTorch para la rutina de entrenamiento de IGN.
Resultados experimentales
¿Cuál es el efecto cuando obtengo IGN?
Los autores admiten que, en esta etapa, los resultados generados por IGN no pueden competir con los modelos más avanzados.
En los experimentos, se utilizan modelos más pequeños y conjuntos de datos de menor resolución, y el enfoque principal en la exploración es simplificar el método.
Por supuesto, las técnicas básicas de modelado generativo, como las GAN y los modelos de difusión, han tardado mucho tiempo en alcanzar la madurez y la escala.
Configuración experimental
Los investigadores evaluaron IGN en MNIST (Grayscale Handwritten Numeric Dataset) y CelebA (Face Image Dataset), utilizando resoluciones de imagen de 28×28 y 64×64, respectivamente.
Los autores emplean una arquitectura de autocodificador simple, donde el codificador es una columna vertebral discriminadora de capa 5 simple de DCGAN y el decodificador es el generador. En la tabla 1 se enumeran los hiperparámetros de entrenamiento y de red.
Generar resultado
La Figura 4 muestra los resultados cualitativos de los dos últimos conjuntos de datos del modelo aplicado una y dos veces seguidas.
Como se puede ver en la figura, la aplicación de IGN una vez (f(z)) produce resultados de generación coherentes. Sin embargo, pueden aparecer artefactos, como agujeros en los números MNIST o píxeles distorsionados de la parte superior de la cabeza y el cabello en las imágenes faciales.
Volver a aplicar f (f (f (z))) puede corregir estos problemas, rellenar agujeros o reducir el cambio total alrededor de las placas de ruido facial.
La Figura 7 muestra los resultados adicionales, así como los resultados de la aplicación de ftriplicado.
Se muestra que cuando la imagen se acerca a la variedad de aprendizaje, la aplicación de f de nuevo da como resultado un cambio mínimo porque la imagen se considera distribuida.
Posible manipulación del espacio
Los autores demostraron que los IGN tienen un espacio latente consistente mediante la realización de operaciones, similares a las mostradas por GAN, y la Figura 6 muestra el algoritmo de espacio latente.
Mapeo fuera de distribución
Los autores también validaron el potencial del "mapeo global" de IGN al introducir imágenes de varias distribuciones en el modelo para generar sus "imágenes naturales" equivalentes.
Conviértalo a la imagen real de la figura 5 para demostrarlo.
Imagen sin procesar x, estas tareas inversas no son determinables. IGN es capaz de crear mapeos naturales que se ajustan a la estructura de la imagen original.
Como se muestra, la aplicación continua de F mejora la calidad de la imagen (por ejemplo, elimina la oscuridad y los artefactos de humo en los bocetos de proyección).
¿Qué sigue para Google?
A partir de los resultados anteriores, se puede ver que IGN es más efectivo en la inferencia, y solo necesita un solo paso para generar resultados después del entrenamiento.
También pueden producir resultados más consistentes, que pueden generalizarse a más aplicaciones, como la pintura de imágenes médicas.
Según los autores:
Vemos este trabajo como el primer paso hacia un modelo que aprenda a mapear entradas arbitrarias a una distribución objetivo, un nuevo paradigma para el modelado generativo.
A continuación, el equipo de investigación planea ampliar IGN con más datos, con la esperanza de aprovechar todo el potencial del nuevo modelo de IA generativa.
El código de las últimas investigaciones se hará público en GitHub en el futuro.
Recursos:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡Terminando con el modelo de difusión, IGN genera imágenes fotorrealistas en un solo paso!UC BerkeleyGoogle innova LLM, y los dramas estadounidenses se convierten en la fuente de inspiración
Fuente del artículo: New Zhiyuan
¿Se eliminará el modelo de difusión, que se ha vuelto popular en todo el cielo?
Normalmente, este modelo necesita aprender muchas imágenes reales antes de poder intentar garantizar las características reales de las imágenes generadas.
Recientemente, investigadores de la Universidad de California en Berkeley y Google propusieron un nuevo modelo generativo llamado redes generativas idempotentes (IGN).
Los IGN pueden generar imágenes fotorrealistas a partir de una amplia variedad de entradas, como ruido aleatorio, gráficos simples, etc., en un solo paso, sin necesidad de múltiples iteraciones.
Este modelo está pensado para ser un "proyector global" que puede asignar cualquier dato de entrada a una distribución de datos de destino.
En resumen, este debe ser el caso de los modelos de generación de imágenes de propósito general en el futuro.
Curiosamente, una escena eficiente en Seinfeld resultó ser la inspiración del autor.
a saber
Red generativa idempotente
Hay dos diferencias importantes entre el IGN y el GAN y los modelos de difusión:
A diferencia de GAN, IGN no requiere un generador y discriminador separados, es un modelo "autoadversarial" que genera y discrimina al mismo tiempo.
A diferencia del modelo de difusión, que realiza pasos incrementales, IGN intenta asignar entradas a distribuciones de datos en un solo paso.
Entonces, ¿cómo surgió el modelo generativo idempotente (IGN)?
Resultados experimentales
¿Cuál es el efecto cuando obtengo IGN?
Los autores admiten que, en esta etapa, los resultados generados por IGN no pueden competir con los modelos más avanzados.
En los experimentos, se utilizan modelos más pequeños y conjuntos de datos de menor resolución, y el enfoque principal en la exploración es simplificar el método.
Por supuesto, las técnicas básicas de modelado generativo, como las GAN y los modelos de difusión, han tardado mucho tiempo en alcanzar la madurez y la escala.
Configuración experimental
Los investigadores evaluaron IGN en MNIST (Grayscale Handwritten Numeric Dataset) y CelebA (Face Image Dataset), utilizando resoluciones de imagen de 28×28 y 64×64, respectivamente.
Los autores emplean una arquitectura de autocodificador simple, donde el codificador es una columna vertebral discriminadora de capa 5 simple de DCGAN y el decodificador es el generador. En la tabla 1 se enumeran los hiperparámetros de entrenamiento y de red.
La Figura 4 muestra los resultados cualitativos de los dos últimos conjuntos de datos del modelo aplicado una y dos veces seguidas.
Como se puede ver en la figura, la aplicación de IGN una vez (f(z)) produce resultados de generación coherentes. Sin embargo, pueden aparecer artefactos, como agujeros en los números MNIST o píxeles distorsionados de la parte superior de la cabeza y el cabello en las imágenes faciales.
Volver a aplicar f (f (f (z))) puede corregir estos problemas, rellenar agujeros o reducir el cambio total alrededor de las placas de ruido facial.
Posible manipulación del espacio
Los autores demostraron que los IGN tienen un espacio latente consistente mediante la realización de operaciones, similares a las mostradas por GAN, y la Figura 6 muestra el algoritmo de espacio latente.
Mapeo fuera de distribución
Los autores también validaron el potencial del "mapeo global" de IGN al introducir imágenes de varias distribuciones en el modelo para generar sus "imágenes naturales" equivalentes.
Imagen sin procesar x, estas tareas inversas no son determinables. IGN es capaz de crear mapeos naturales que se ajustan a la estructura de la imagen original.
Como se muestra, la aplicación continua de F mejora la calidad de la imagen (por ejemplo, elimina la oscuridad y los artefactos de humo en los bocetos de proyección).
¿Qué sigue para Google?
A partir de los resultados anteriores, se puede ver que IGN es más efectivo en la inferencia, y solo necesita un solo paso para generar resultados después del entrenamiento.
También pueden producir resultados más consistentes, que pueden generalizarse a más aplicaciones, como la pintura de imágenes médicas.
Según los autores:
A continuación, el equipo de investigación planea ampliar IGN con más datos, con la esperanza de aprovechar todo el potencial del nuevo modelo de IA generativa.
El código de las últimas investigaciones se hará público en GitHub en el futuro.
Recursos: