Inesperadamente, a OpenAI aproveitou a "concorrência" Stable Diffusion.
No quente "AI Spring Festival Gala", a OpenAI abriu dois trabalhos de uma só vez, um dos quais é Consistency Decoder, que é especificamente para o modelo VAE da SD.
Ele permite maior qualidade e geração de imagens mais estáveis, como várias faces, imagens com texto e controle de linha.
Big V blogger analisa que este decodificador deve ser Dall· E 3 com o mesmo modelo, na página do projeto GitHub OpenAI também fornece Dall· E 3 Tese.
A versão que suporta especificamente é Stable Diffusion 1.4/1.5.
Há apenas um exemplo na página do projeto, e o treinamento específico não é escrito, que é chamado de "código aberto por pessoas que não falam muito".
Você pode simplesmente carregá-lo e usá-lo.
E este descodificador coerente tem muito para oferecer.
Ele vem dos Modelos de Consistência propostos por Ilya, o cocriador e cientista-chefe da OpenAI, e Song Yang, uma estrela chinesa em ascensão da OpenAI.
No primeiro semestre do ano, quando este modelo foi de código aberto, causou um choque na indústria e foi classificado como o "modelo de difusão final".
Não muito tempo atrás, Song Yang et al., também otimizaram o método de treinamento do modelo, o que pode melhorar ainda mais a qualidade da geração de imagens.
Outro grande código aberto do dia do desenvolvedor é o modelo de voz Whisper 3. É também o trabalho de lendas, com Alec Radford desempenhando um papel importante na construção da série GPT.
Os internautas não podem deixar de suspirar: eu ainda amo ver o código aberto OpenAI e estou ansioso para continuar a abrir mais modelos.
Modelo de consistência completa a reevolução
Vamos começar com a primeira versão dos Modelos de Consistência.
Ele é projetado para resolver o problema da geração lenta de imagens causada pela iteração gradual de modelos de difusão. Leva apenas 3,5 segundos para gerar 64 imagens de cerca de 256×256.
Tem duas vantagens principais em relação ao modelo de difusão:
Primeiro, amostras de imagem de alta qualidade podem ser geradas diretamente sem treinamento adversarial.
Em segundo lugar, em comparação com o modelo de difusão, que pode exigir centenas ou até milhares de iterações, o modelo de consistência só precisa de uma ou duas etapas para concluir uma variedade de tarefas de imagem.
Coloração, denoising, super-resolução, etc., tudo pode ser feito em poucos passos, sem a necessidade de treinamento explícito para essas tarefas. (Claro, o efeito de geração é melhor se o aprendizado for feito com menos tiros)
Em princípio, o modelo de consistência mapeia diretamente o ruído aleatório para imagens complexas, e a saída é o mesmo ponto na mesma trajetória, então ele realiza a geração de uma etapa.
O artigo propõe dois métodos de treinamento, um baseado na destilação de consistência, usando um modelo de difusão pré-treinado para gerar pares de dados adjacentes, e treinando um modelo consistente minimizando a diferença entre as saídas do modelo.
Outra abordagem é o treinamento independente, onde o modelo consistente é treinado como um modelo gerado independentemente.
Os resultados experimentais mostram que o modelo de consistência é superior às técnicas de destilação existentes, como a destilação progressiva, em termos de amostragem de uma etapa e de baixa etapa.
Quando treinado como um modelo generativo autônomo, um modelo consistente pode ser comparado a modelos generativos não adversariais existentes de uma etapa em agregados de benchmark padrão, como CIFAR-10, ImageNet 64×64 e LSUN 256×256.
A segunda edição do artigo, publicada meio ano depois, otimiza o método de formação.
Ao otimizar a função de peso, a incorporação de ruído e a desistência, o modelo consistente pode alcançar uma boa qualidade de geração sem depender dos recursos aprendidos.
Melhora a escolha da função de peso para que diminua à medida que o nível de ruído aumenta, o que resulta num maior peso da perda de consistência em níveis de ruído mais pequenos, melhorando assim a qualidade da amostra.
Ao mesmo tempo, a sensibilidade da camada de incorporação de ruído é ajustada para reduzir a sensibilidade a pequenas diferenças de ruído, o que ajuda a melhorar a estabilidade do treinamento contínuo de consistência de tempo.
Verifica-se que a qualidade da imagem pode ser melhorada usando um grande abandono, removendo a EMA da rede de professores e substituindo a função de perda de Pseudo-Huber pela distância de recurso aprendida (como LPIPS) no modelo de consenso.
Mais uma coisa
Voltando ao mais recente descodificador de código aberto, chegou a primeira vaga de experiência medida.
Atualmente, alguns dos efeitos vistos não são óbvios, e muitas pessoas relatam que a velocidade de corrida é lenta.
Mas este ainda é o teste mais antigo, e pode haver mais melhorias no futuro.
Vale a pena mencionar que Song Yang, que liderou o lançamento do modelo de consistência, é jovem, mas foi classificado como um OG (veterano) no círculo do modelo de difusão.
△Do cientista de IA da Nvidia Jim Fan Twitter
Este ano, com o modelo de consistência, Song Yang também é famoso. Este grande cara foi para a Universidade de Tsinghua aos 16 anos como o melhor estudante de ciências, e mais histórias sobre ele podem ser cutucadas: A popular estrela em ascensão da OpenAI, Song Yang: A última pesquisa foi premiada com o "Modelo de Difusão Final", e ele foi para a Universidade de Tsinghua aos 16 anos
Endereço:
[1]
[2]
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
OpenAI salva difusão estável! E3 com o mesmo decodificador, de Ilya Song Yang e assim por diante
Fonte: Quantum Dimension
No quente "AI Spring Festival Gala", a OpenAI abriu dois trabalhos de uma só vez, um dos quais é Consistency Decoder, que é especificamente para o modelo VAE da SD.
Ele permite maior qualidade e geração de imagens mais estáveis, como várias faces, imagens com texto e controle de linha.
Há apenas um exemplo na página do projeto, e o treinamento específico não é escrito, que é chamado de "código aberto por pessoas que não falam muito".
Ele vem dos Modelos de Consistência propostos por Ilya, o cocriador e cientista-chefe da OpenAI, e Song Yang, uma estrela chinesa em ascensão da OpenAI.
No primeiro semestre do ano, quando este modelo foi de código aberto, causou um choque na indústria e foi classificado como o "modelo de difusão final".
Não muito tempo atrás, Song Yang et al., também otimizaram o método de treinamento do modelo, o que pode melhorar ainda mais a qualidade da geração de imagens.
Os internautas não podem deixar de suspirar: eu ainda amo ver o código aberto OpenAI e estou ansioso para continuar a abrir mais modelos.
Modelo de consistência completa a reevolução
Vamos começar com a primeira versão dos Modelos de Consistência.
Ele é projetado para resolver o problema da geração lenta de imagens causada pela iteração gradual de modelos de difusão. Leva apenas 3,5 segundos para gerar 64 imagens de cerca de 256×256.
Primeiro, amostras de imagem de alta qualidade podem ser geradas diretamente sem treinamento adversarial.
Em segundo lugar, em comparação com o modelo de difusão, que pode exigir centenas ou até milhares de iterações, o modelo de consistência só precisa de uma ou duas etapas para concluir uma variedade de tarefas de imagem.
Coloração, denoising, super-resolução, etc., tudo pode ser feito em poucos passos, sem a necessidade de treinamento explícito para essas tarefas. (Claro, o efeito de geração é melhor se o aprendizado for feito com menos tiros)
Em princípio, o modelo de consistência mapeia diretamente o ruído aleatório para imagens complexas, e a saída é o mesmo ponto na mesma trajetória, então ele realiza a geração de uma etapa.
Outra abordagem é o treinamento independente, onde o modelo consistente é treinado como um modelo gerado independentemente.
Os resultados experimentais mostram que o modelo de consistência é superior às técnicas de destilação existentes, como a destilação progressiva, em termos de amostragem de uma etapa e de baixa etapa.
Quando treinado como um modelo generativo autônomo, um modelo consistente pode ser comparado a modelos generativos não adversariais existentes de uma etapa em agregados de benchmark padrão, como CIFAR-10, ImageNet 64×64 e LSUN 256×256.
Ao otimizar a função de peso, a incorporação de ruído e a desistência, o modelo consistente pode alcançar uma boa qualidade de geração sem depender dos recursos aprendidos.
Melhora a escolha da função de peso para que diminua à medida que o nível de ruído aumenta, o que resulta num maior peso da perda de consistência em níveis de ruído mais pequenos, melhorando assim a qualidade da amostra.
Ao mesmo tempo, a sensibilidade da camada de incorporação de ruído é ajustada para reduzir a sensibilidade a pequenas diferenças de ruído, o que ajuda a melhorar a estabilidade do treinamento contínuo de consistência de tempo.
Verifica-se que a qualidade da imagem pode ser melhorada usando um grande abandono, removendo a EMA da rede de professores e substituindo a função de perda de Pseudo-Huber pela distância de recurso aprendida (como LPIPS) no modelo de consenso.
Mais uma coisa
Voltando ao mais recente descodificador de código aberto, chegou a primeira vaga de experiência medida.
Atualmente, alguns dos efeitos vistos não são óbvios, e muitas pessoas relatam que a velocidade de corrida é lenta.
Mas este ainda é o teste mais antigo, e pode haver mais melhorias no futuro.
Este ano, com o modelo de consistência, Song Yang também é famoso. Este grande cara foi para a Universidade de Tsinghua aos 16 anos como o melhor estudante de ciências, e mais histórias sobre ele podem ser cutucadas: A popular estrela em ascensão da OpenAI, Song Yang: A última pesquisa foi premiada com o "Modelo de Difusão Final", e ele foi para a Universidade de Tsinghua aos 16 anos
Endereço:
[1]
[2]