Modelo de difusão "boneca matryoshka" da Apple, o número de etapas de treinamento é reduzido em 70%!

Fonte original: Qubits

Fonte da imagem: Gerado por Unbounded AI

Um estudo recente da Apple melhorou drasticamente o desempenho de modelos de difusão em imagens de alta resolução.

Usando esse método, o número de etapas de treinamento é reduzido em mais de setenta por cento para a mesma imagem de resolução.

Com uma resolução de 1024 ×1024, a qualidade da imagem está diretamente cheia e os detalhes são claramente visíveis.

A Apple nomeou esta conquista de MDM, DM é a abreviação de Diffusion Model, e o primeiro M significa Matryoshka.

Assim como um boneco matryoshka real, o MDM aninha processos de baixa resolução em processos de alta resolução e é aninhado em várias camadas.

Os processos de difusão de alta e baixa resolução são realizados simultaneamente, o que reduz muito o consumo de recursos do modelo de difusão tradicional no processo de alta resolução.

Para imagens com resolução de 256×256, em um ambiente com um tamanho de lote de 1024, o modelo de difusão tradicional precisa treinar 1,5 milhão de passos, enquanto o MDM precisa apenas de 390.000, o que é reduzido em mais de 70%.

Além disso, o MDM adota treinamento de ponta a ponta, não depende de conjuntos de dados específicos e modelos pré-treinados, e ainda garante a qualidade da geração enquanto acelera, e é flexível de usar.

Não só podem ser desenhadas imagens de alta resolução, como também podem ser compostos vídeos de 16×256².

Alguns internautas comentaram que a Apple finalmente conectou o texto à imagem.

Então, como a tecnologia "boneca matryoshka" da MDM faz isso?

Combinação holística e progressiva

Antes de iniciar o treinamento, os dados precisam ser pré-processados, e as imagens de alta resolução serão reamostradas com um determinado algoritmo para obter diferentes versões de resolução.

Esses dados de diferentes resoluções são então usados para modelagem UNet conjunta, com processamento UNet pequeno de baixa resolução e aninhamento em processamento UNet grande alta resolução.

Com conexões de resolução cruzada, recursos e parâmetros podem ser compartilhados entre UNets de diferentes tamanhos.

A formação em MDM é um processo gradual.

Embora a modelagem seja conjunta, o processo de treinamento não começa com alta resolução, mas gradualmente aumenta a partir de baixa resolução.

Isso evita a enorme quantidade de computação e permite o pré-treinamento de UNet de baixa resolução para acelerar o processo de treinamento de alta resolução.

Durante o processo de treinamento, os dados de treinamento de alta resolução são gradualmente adicionados ao processo geral, para que o modelo possa se adaptar à resolução progressivamente crescente e fazer uma transição suave para o processo final de alta resolução.

No entanto, em geral, após a adição gradual de processos de alta resolução, o treinamento MDM ainda é um processo conjunto de ponta a ponta.

Em treinamentos conjuntos em diferentes resoluções, a função de perda em múltiplas resoluções participa da atualização de parâmetros em conjunto, evitando o acúmulo de erros causados pelo treinamento em vários estágios.

Cada resolução tem a perda de reconstrução correspondente do item de dados, e a perda de diferentes resoluções é ponderada e mesclada, entre as quais o peso de perda de baixa resolução é maior, a fim de garantir a qualidade da geração.

Na fase de inferência, o MDM também adota uma combinação de estratégias paralelas e progressivas.

Além disso, o MDM também usa um modelo de classificação de imagem pré-treinado (CFG) para orientar as amostras geradas para otimizar em uma direção mais razoável e adicionar ruído às amostras de baixa resolução para torná-las mais próximas da distribuição de amostras de alta resolução.

Então, qual é a eficácia do MDM?

Menos parâmetros para corresponder ao SOTA

Em termos de imagens, nos conjuntos de dados ImageNet e CC12M, o FID do MDM (quanto menor o valor, melhor) e o CLIP têm um desempenho significativamente melhor do que os modelos de difusão comuns.

FID é usado para avaliar a qualidade da imagem em si, e CLIP descreve o grau de correspondência entre a imagem e a instrução de texto.

Em comparação com modelos SOTA como DALL E e IMAGEN, o desempenho do MDM também é próximo, mas os parâmetros de treinamento do MDM são muito menores do que esses modelos.

Não só é melhor do que os modelos de difusão comuns, mas o MDM também supera outros modelos de difusão em cascata.

Os resultados dos experimentos de ablação mostram que quanto mais etapas de treinamento de baixa resolução, mais óbvio é o aumento do efeito MDM. Por outro lado, quanto mais níveis de aninhamento, menos etapas de treinamento são necessárias para atingir a mesma pontuação CLIP.

A escolha dos parâmetros CFG é o resultado de um trade-off entre FID e CLIP após vários testes (alta pontuação CLIP em relação ao aumento da força CFG).

Endereço em papel:

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
0/400
Sem comentários
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)