Inesperadamente, OpenAI se aprovechó de la "competencia" Stable Diffusion.
En la candente "AI Spring Festival Gala", OpenAI abrió dos obras de una sola vez, una de las cuales es Consistency Decoder, que es específicamente para el modelo VAE de SD.
Permite una generación de imágenes más estable y de mayor calidad, como múltiples caras, imágenes con texto y control de línea.
El bloguero de Big V analiza que este decodificador debería ser Dall· E 3 con el mismo modelo, en la página del proyecto de GitHub OpenAI también proporciona Dall· E 3 Tesis.
La versión que soporta específicamente es Stable Diffusion 1.4/1.5.
Solo hay un ejemplo en la página del proyecto, y la formación específica no está escrita, que se llama "código abierto por personas que no hablan mucho".
Puedes simplemente cargarlo y usarlo.
Y este decodificador coherente tiene mucho que ofrecer.
Proviene de los Modelos de Consistencia propuestos por Ilya, el co-creador y científico jefe de OpenAI, y Song Yang, una estrella china en ascenso de OpenAI.
En la primera mitad del año, cuando este modelo fue de código abierto, causó un shock en la industria y fue calificado como el "modelo de difusión final".
No hace mucho, Song Yang et al. también optimizaron el método de entrenamiento del modelo, lo que puede mejorar aún más la calidad de la generación de imágenes.
Otro gran código abierto del día de los desarrolladores es el modelo de voz Whisper 3. También es obra de leyendas, con Alec Radford desempeñando un papel importante en la construcción de la serie GPT.
Los internautas no pueden evitar suspirar: todavía me encanta ver OpenAI de código abierto, y espero seguir abriendo más modelos.
El modelo de consistencia completa la re-evolución
Comencemos con la primera versión de los Modelos de Consistencia.
Está diseñado para resolver el problema de la lenta generación de imágenes causada por la iteración gradual de los modelos de difusión. Solo se necesitan 3,5 segundos para generar 64 imágenes de alrededor de 256×256.
Tiene dos ventajas principales sobre el modelo de difusión:
En primer lugar, se pueden generar muestras de imágenes de alta calidad directamente sin necesidad de entrenar a los adversarios.
En segundo lugar, en comparación con el modelo de difusión, que puede requerir cientos o incluso miles de iteraciones, el modelo de coherencia solo necesita uno o dos pasos para completar una variedad de tareas de imagen.
El coloreado, la eliminación de ruido, la superresolución, etc., se pueden realizar en unos pocos pasos, sin necesidad de una formación explícita para estas tareas. (Por supuesto, el efecto de generación es mejor si el aprendizaje se realiza con menos disparos)
En principio, el modelo de consistencia asigna directamente el ruido aleatorio a imágenes complejas, y la salida es el mismo punto en la misma trayectoria, por lo que realiza la generación en un solo paso.
El artículo propone dos métodos de entrenamiento, uno se basa en la destilación de consistencia, utilizando un modelo de difusión preentrenado para generar pares de datos adyacentes, y entrenando un modelo consistente minimizando la diferencia entre los resultados del modelo.
Otro enfoque es el entrenamiento independiente, en el que el modelo coherente se entrena como un modelo generado de forma independiente.
Los resultados experimentales muestran que el modelo de consistencia es superior a las técnicas de destilación existentes, como la destilación progresiva, en términos de muestreo de un solo paso y de paso bajo.
Cuando se entrena como un modelo generativo independiente, un modelo coherente se puede comparar con los modelos generativos no adversarios de un solo paso existentes en agregados de referencia estándar, como CIFAR-10, ImageNet 64×64 y LSUN 256×256.
La segunda edición del artículo, publicada medio año después, optimiza el método de entrenamiento.
Al optimizar la función de peso, la incrustación de ruido y la caída, el modelo consistente puede lograr una buena calidad de generación sin depender de las características aprendidas.
Mejora la elección de la función de peso para que disminuya a medida que aumenta el nivel de ruido, lo que se traduce en un mayor peso de la pérdida de consistencia a niveles de ruido más pequeños, mejorando así la calidad de la muestra.
Al mismo tiempo, la sensibilidad de la capa de incrustación de ruido se ajusta para reducir la sensibilidad a pequeñas diferencias de ruido, lo que ayuda a mejorar la estabilidad del entrenamiento continuo de consistencia en el tiempo.
Se encuentra que la calidad de la imagen se puede mejorar aún más mediante el uso de una gran omisión, eliminando el EMA de la red maestra y reemplazando la función de pérdida de Pseudo-Huber con la distancia de característica aprendida (como LPIPS) en el modelo de consenso.
Una cosa más
Volviendo al último decodificador de código abierto, ha llegado la primera ola de experiencia medida.
En la actualidad, algunos de los efectos observados no son obvios, y muchas personas informan que la velocidad de carrera es lenta.
Pero esta sigue siendo la primera prueba, y puede haber más mejoras en el futuro.
Vale la pena mencionar que Song Yang, quien lideró el lanzamiento del modelo de consistencia, es joven pero ha sido calificado como OG (veterano) en el círculo de modelos de difusión.
△Del Twitter del científico de IA de Nvidia Jim Fan
Este año, con el modelo de consistencia, Song Yang también es famoso. Este grandullón fue a la Universidad de Tsinghua a la edad de 16 años como el mejor estudiante de ciencias, y se pueden contar más historias sobre él: La popular estrella en ascenso de OpenAI, Song Yang: La última investigación fue galardonada con el "Modelo de difusión final", y fue a la Universidad de Tsinghua a la edad de 16 años
Dirección:
[1]
[2]
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
¡OpenAI salva la difusión estable! E3 con el mismo decodificador, de Ilya Song Yang y así sucesivamente
Fuente: Dimensión Cuántica
En la candente "AI Spring Festival Gala", OpenAI abrió dos obras de una sola vez, una de las cuales es Consistency Decoder, que es específicamente para el modelo VAE de SD.
Permite una generación de imágenes más estable y de mayor calidad, como múltiples caras, imágenes con texto y control de línea.
Solo hay un ejemplo en la página del proyecto, y la formación específica no está escrita, que se llama "código abierto por personas que no hablan mucho".
Proviene de los Modelos de Consistencia propuestos por Ilya, el co-creador y científico jefe de OpenAI, y Song Yang, una estrella china en ascenso de OpenAI.
En la primera mitad del año, cuando este modelo fue de código abierto, causó un shock en la industria y fue calificado como el "modelo de difusión final".
No hace mucho, Song Yang et al. también optimizaron el método de entrenamiento del modelo, lo que puede mejorar aún más la calidad de la generación de imágenes.
Los internautas no pueden evitar suspirar: todavía me encanta ver OpenAI de código abierto, y espero seguir abriendo más modelos.
El modelo de consistencia completa la re-evolución
Comencemos con la primera versión de los Modelos de Consistencia.
Está diseñado para resolver el problema de la lenta generación de imágenes causada por la iteración gradual de los modelos de difusión. Solo se necesitan 3,5 segundos para generar 64 imágenes de alrededor de 256×256.
En primer lugar, se pueden generar muestras de imágenes de alta calidad directamente sin necesidad de entrenar a los adversarios.
En segundo lugar, en comparación con el modelo de difusión, que puede requerir cientos o incluso miles de iteraciones, el modelo de coherencia solo necesita uno o dos pasos para completar una variedad de tareas de imagen.
El coloreado, la eliminación de ruido, la superresolución, etc., se pueden realizar en unos pocos pasos, sin necesidad de una formación explícita para estas tareas. (Por supuesto, el efecto de generación es mejor si el aprendizaje se realiza con menos disparos)
En principio, el modelo de consistencia asigna directamente el ruido aleatorio a imágenes complejas, y la salida es el mismo punto en la misma trayectoria, por lo que realiza la generación en un solo paso.
Otro enfoque es el entrenamiento independiente, en el que el modelo coherente se entrena como un modelo generado de forma independiente.
Los resultados experimentales muestran que el modelo de consistencia es superior a las técnicas de destilación existentes, como la destilación progresiva, en términos de muestreo de un solo paso y de paso bajo.
Cuando se entrena como un modelo generativo independiente, un modelo coherente se puede comparar con los modelos generativos no adversarios de un solo paso existentes en agregados de referencia estándar, como CIFAR-10, ImageNet 64×64 y LSUN 256×256.
Al optimizar la función de peso, la incrustación de ruido y la caída, el modelo consistente puede lograr una buena calidad de generación sin depender de las características aprendidas.
Mejora la elección de la función de peso para que disminuya a medida que aumenta el nivel de ruido, lo que se traduce en un mayor peso de la pérdida de consistencia a niveles de ruido más pequeños, mejorando así la calidad de la muestra.
Al mismo tiempo, la sensibilidad de la capa de incrustación de ruido se ajusta para reducir la sensibilidad a pequeñas diferencias de ruido, lo que ayuda a mejorar la estabilidad del entrenamiento continuo de consistencia en el tiempo.
Se encuentra que la calidad de la imagen se puede mejorar aún más mediante el uso de una gran omisión, eliminando el EMA de la red maestra y reemplazando la función de pérdida de Pseudo-Huber con la distancia de característica aprendida (como LPIPS) en el modelo de consenso.
Una cosa más
Volviendo al último decodificador de código abierto, ha llegado la primera ola de experiencia medida.
En la actualidad, algunos de los efectos observados no son obvios, y muchas personas informan que la velocidad de carrera es lenta.
Pero esta sigue siendo la primera prueba, y puede haber más mejoras en el futuro.
Este año, con el modelo de consistencia, Song Yang también es famoso. Este grandullón fue a la Universidad de Tsinghua a la edad de 16 años como el mejor estudiante de ciencias, y se pueden contar más historias sobre él: La popular estrella en ascenso de OpenAI, Song Yang: La última investigación fue galardonada con el "Modelo de difusión final", y fue a la Universidad de Tsinghua a la edad de 16 años
Dirección:
[1]
[2]