OpenAI salva difusão estável! E3 com o mesmo decodificador, de Ilya Song Yang e assim por diante

2023-11-11 09:46:06

Fonte: Quantum Dimension

Fonte da imagem: Gerada por Unbounded AI

Inesperadamente, a OpenAI aproveitou a "concorrência" Stable Diffusion.

No quente "AI Spring Festival Gala", a OpenAI abriu dois trabalhos de uma só vez, um dos quais é Consistency Decoder, que é especificamente para o modelo VAE da SD.

Ele permite maior qualidade e geração de imagens mais estáveis, como várias faces, imagens com texto e controle de linha.

Big V blogger analisa que este decodificador deve ser Dall· E 3 com o mesmo modelo, na página do projeto GitHub OpenAI também fornece Dall· E 3 Tese.

A versão que suporta especificamente é Stable Diffusion 1.4/1.5.

Há apenas um exemplo na página do projeto, e o treinamento específico não é escrito, que é chamado de "código aberto por pessoas que não falam muito".

Você pode simplesmente carregá-lo e usá-lo.

E este descodificador coerente tem muito para oferecer.

Ele vem dos Modelos de Consistência propostos por Ilya, o cocriador e cientista-chefe da OpenAI, e Song Yang, uma estrela chinesa em ascensão da OpenAI.

No primeiro semestre do ano, quando este modelo foi de código aberto, causou um choque na indústria e foi classificado como o "modelo de difusão final".

Não muito tempo atrás, Song Yang et al., também otimizaram o método de treinamento do modelo, o que pode melhorar ainda mais a qualidade da geração de imagens.

Outro grande código aberto do dia do desenvolvedor é o modelo de voz Whisper 3. É também o trabalho de lendas, com Alec Radford desempenhando um papel importante na construção da série GPT.

Os internautas não podem deixar de suspirar: eu ainda amo ver o código aberto OpenAI e estou ansioso para continuar a abrir mais modelos.

Modelo de consistência completa a reevolução

Vamos começar com a primeira versão dos Modelos de Consistência.

Ele é projetado para resolver o problema da geração lenta de imagens causada pela iteração gradual de modelos de difusão. Leva apenas 3,5 segundos para gerar 64 imagens de cerca de 256×256.

Tem duas vantagens principais em relação ao modelo de difusão:

Primeiro, amostras de imagem de alta qualidade podem ser geradas diretamente sem treinamento adversarial.

Em segundo lugar, em comparação com o modelo de difusão, que pode exigir centenas ou até milhares de iterações, o modelo de consistência só precisa de uma ou duas etapas para concluir uma variedade de tarefas de imagem.

Coloração, denoising, super-resolução, etc., tudo pode ser feito em poucos passos, sem a necessidade de treinamento explícito para essas tarefas. (Claro, o efeito de geração é melhor se o aprendizado for feito com menos tiros)

Em princípio, o modelo de consistência mapeia diretamente o ruído aleatório para imagens complexas, e a saída é o mesmo ponto na mesma trajetória, então ele realiza a geração de uma etapa.

O artigo propõe dois métodos de treinamento, um baseado na destilação de consistência, usando um modelo de difusão pré-treinado para gerar pares de dados adjacentes, e treinando um modelo consistente minimizando a diferença entre as saídas do modelo.

Outra abordagem é o treinamento independente, onde o modelo consistente é treinado como um modelo gerado independentemente.

Os resultados experimentais mostram que o modelo de consistência é superior às técnicas de destilação existentes, como a destilação progressiva, em termos de amostragem de uma etapa e de baixa etapa.

Quando treinado como um modelo generativo autônomo, um modelo consistente pode ser comparado a modelos generativos não adversariais existentes de uma etapa em agregados de benchmark padrão, como CIFAR-10, ImageNet 64×64 e LSUN 256×256.

A segunda edição do artigo, publicada meio ano depois, otimiza o método de formação.

Ao otimizar a função de peso, a incorporação de ruído e a desistência, o modelo consistente pode alcançar uma boa qualidade de geração sem depender dos recursos aprendidos.

Melhora a escolha da função de peso para que diminua à medida que o nível de ruído aumenta, o que resulta num maior peso da perda de consistência em níveis de ruído mais pequenos, melhorando assim a qualidade da amostra.

Ao mesmo tempo, a sensibilidade da camada de incorporação de ruído é ajustada para reduzir a sensibilidade a pequenas diferenças de ruído, o que ajuda a melhorar a estabilidade do treinamento contínuo de consistência de tempo.

Verifica-se que a qualidade da imagem pode ser melhorada usando um grande abandono, removendo a EMA da rede de professores e substituindo a função de perda de Pseudo-Huber pela distância de recurso aprendida (como LPIPS) no modelo de consenso.

Mais uma coisa

Voltando ao mais recente descodificador de código aberto, chegou a primeira vaga de experiência medida.

Atualmente, alguns dos efeitos vistos não são óbvios, e muitas pessoas relatam que a velocidade de corrida é lenta.

Mas este ainda é o teste mais antigo, e pode haver mais melhorias no futuro.

Vale a pena mencionar que Song Yang, que liderou o lançamento do modelo de consistência, é jovem, mas foi classificado como um OG (veterano) no círculo do modelo de difusão.

△Do cientista de IA da Nvidia Jim Fan Twitter

Este ano, com o modelo de consistência, Song Yang também é famoso. Este grande cara foi para a Universidade de Tsinghua aos 16 anos como o melhor estudante de ciências, e mais histórias sobre ele podem ser cutucadas: A popular estrela em ascensão da OpenAI, Song Yang: A última pesquisa foi premiada com o "Modelo de Difusão Final", e ele foi para a Universidade de Tsinghua aos 16 anos

Endereço:
[1]
[2]

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

0/400

Sem comentários

Tema
#Gate 2025 Global Fall Campus Recruitment
7k Popularidade
#ETH Trend Watch
12k Popularidade
#Rise of Solana Treasury Holders
7k Popularidade
#Gate Alpha Peak Trade Phase 2
17k Popularidade
#Commerce Dept. Goes On-Chain
14k Popularidade

Marcar

sitemap