A comparação mais abrangente: qual é a melhor IA generativa? Uma grande coleção de vantagens e desvantagens das três principais ferramentas de geração de imagens, você entenderá depois de ler
Fonte da imagem: Gerada pela ferramenta Unbounded AI
A palavra-chave mais quente em 2023 é provavelmente IA.
Do ChatGPT, que nasceu do nada, ao Midjourney, que é popular em toda a Internet, e depois ao corpo a corpo em larga escala da IA global, em menos de um ano, o AIGC continuou a explodir, agitando o mundo.
Não importa em casa ou no exterior, todos parecem ter encontrado a passagem para o "novo mundo", seja em pesquisa e desenvolvimento de IA, seja em negócios + IA. Pode-se dizer que a IA se tornou a certeza mais certa do momento, levando o público à próxima era AIGC e realizando um novo salto de produtividade. Existem muitas ferramentas relacionadas à IA em casa e no exterior, mas todas são estendidas dos três algoritmos principais de Midjourney (MJ), Stable Diffusion (SD) e DALL-E. DALL-E foi atualizado para DALL-E2.
Hoje vamos explorar juntos quais são as vantagens, desvantagens e diferenças desses três algoritmos convencionais?
Introdução em segundo plano dos três "streams principais"
Midjourney é um software atualmente instalado na plataforma Discord. Foi desenvolvido por um estúdio nos Estados Unidos e estreou em março de 2022. Em apenas um ano, MJ atualizou e iterou para a versão V5 e rapidamente se tornou popular com sua arte. . Os mapas gerados dessas explosões nas redes sociais são todos gerados por MJ. Com sua incrível qualidade de renderização e modelo de comercialização perfeito, atraiu com sucesso um grande número de usuários pagantes e alcançou uma receita anual de 100 milhões de dólares americanos.
O Stable Diffusion é desenvolvido pela startup britânica Stability AI em cooperação com vários pesquisadores acadêmicos e organizações sem fins lucrativos. É de uso gratuito. O código-fonte atual e o modelo de SD são de código aberto e podem ser usados localmente em Mac, PC ou até mesmo dispositivos móveis. Implantação (requer configuração de equipamento relativamente alta), você pode modelar DIY, muitas ferramentas de software em casa e no exterior, a maioria delas é desenvolvida com SD como lógica subjacente, e sua capacidade de controle e renderização também são muito fortes, e agora muitos designers o usam para realizar algum trabalho paralelo.
O DALL-E 2 foi desenvolvido e lançado pela equipe OpenAI. Ao contrário do Midjourney, as imagens geradas sob instruções simples geralmente tendem a ser realistas. O DALL-E 2 é o melhor dos três em termos de imagens realistas e instruções concisas.
Habilidade Expressiva
Vamos dar uma olhada em sua capacidade expressiva juntos. Sob a descrição de mesma palavra-chave, como está o feedback da imagem?
DALL·E 2 (esquerda), Midjourney (meio) e difusão estável (direita)
DALL·E 2 (esquerda), Midjourney (meio) e difusão estável (direita)
DALL·E 2 (esquerda), Midjourney (meio) e difusão estável (direita)
A partir da comparação na figura acima, podemos ver que o DALL-E 2 pode lidar muito bem com imagens da natureza e das pessoas. No momento, usando a API do DALL-E 2, três métodos de interação com imagens podem ser realizados: De acordo com para o prompt de texto Crie imagens do zero, crie edições de imagens existentes com base em novos prompts de texto, crie variações de imagens existentes.
Midjourney tem cores ricas e gráficos realistas em todas as tentativas. Ele é capaz de gerar imagens com base em solicitações do usuário. Midjourney é bom em adaptar o estilo de arte real para criar imagens com qualquer combinação de efeitos que o usuário desejar. Ele se destaca em efeitos ambientais, especialmente cenas de fantasia e ficção científica que se parecem com a arte do jogo.
E o Stable Diffusion é um modelo de código aberto que todos podem usar. Tem uma compreensão relativamente boa de imagens de arte contemporânea e pode produzir obras de arte cheias de detalhes. Só que é difícil para usuários comuns usarem. Atualmente, a discussão mais popular entre todos é quem é melhor, SD ou MJ, então testamos algumas imagens.
Midjourney (à esquerda) e difusão estável (à direita)
Midjourney (à esquerda) e difusão estável (à direita)
A partir dos detalhes da geração de imagens de personagens de desenhos animados, o SD é melhor.Com a mesma geração de palavras-chave, os recursos faciais gerados pelo SD são mais tridimensionais e requintados, e o Midjourney é mais artístico.
Midjourney (à esquerda) e difusão estável (à direita)
Ao gerar imagens realistas em estilo de ilustração, os dois são igualmente eficazes. A maior vantagem do SD é que os usuários podem remixar por meio de incorporação de modelo, LoRA ou rede, o que pode produzir efeitos inesperados.
Midjourney (à esquerda) e difusão estável (à direita)
Atualmente, o Stable Diffusion tem mais de mil modelos disponíveis para download. Cada modelo pode ser modificado ainda mais usando modelos LoRA, modelos de incorporação e hiper-redes; Midjourney é limitado em termos de modelos. Apenas os modelos v1 a v5 estão disponíveis e alguns modelos especiais, como niji, test, testp e HD. Existe um parâmetro adicional para "estilizar" a imagem. Mas, no geral, ainda empalidece em comparação com a difusão estável.
orientação do usuário
Na verdade, esses geradores de imagens AI têm suas próprias vantagens. De acordo com a experiência desses três algoritmos, resumimos alguns pontos e diferenças pendentes. Como escolhê-los pode ser determinado de acordo com suas próprias necessidades.
1、DALL-E2
A interface deste modelo é simples e fácil de entender, e você pode gerar imagens facilmente sem registrar uma plataforma de terceiros. Você só precisa visitar o site e inserir o texto da palavra-chave na caixa de geração para criar imagens.
vantagem:
lFácil de usar
l Criatividade com flexibilidade
l Nenhuma plataforma de terceiros necessária
deficiência:
l imagem simples
l A precisão não é alta
l Só pode criar imagens quadradas
2、Meio da jornada
Ao contrário do DALL-E 2, você precisa primeiro criar uma conta Discord e inserir comandos como texto ou imagens para gerar imagens.
vantagem:
l Imagem de alta qualidade
l Os usuários podem personalizar a proporção do tamanho da imagem
l Controle flexível de parâmetros de imagem
deficiência:
l É mais complicado de usar
l Exigir que os usuários se registrem no Discord
l Depois que o tempo rápido acabar, o tempo de geração da imagem aumentará drasticamente
3、Difusão estável
Ambos Stable Diffusion e DALL·E-2 são baseados no modelo de difusão, que pode desenhar imagens de acordo com os descritores de texto de entrada (). Para completar a produção de imagens excelentes em difusão estável, é necessário o modelo correto + palavras de solicitação precisas + ajuste de parâmetros + tecnologia de pós-processamento.
vantagem:
l Operação web e instalação de modelos de código aberto para outras plataformas
l Mais liberdade criativa
l Um grande número de controles para personalizar os parâmetros da imagem
deficiência:
l Requer equipamento de hardware profissional e poderoso
l A qualidade da imagem é muito instável, depende da versão que você usa
l Alta dificuldade de aprendizado, difícil para usuários comuns controlarem
Resumindo, se você tiver uma saída de destino clara, por exemplo, você é um designer de arquitetura, então o Stable Diffusion atenderá melhor às suas necessidades criativas porque é mais controlável. E se você não tem um objetivo claro de controle criativo e deseja fazer algum trabalho criativo com pensamento divergente, a conveniência e o baixo limiar de Midjourney e DALL-E 2 serão sua melhor escolha.
Qual ferramenta de IA você prefere usar? Como é aplicado na vida profissional? Bem-vindo a compartilhar conosco nos comentários!
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
A comparação mais abrangente: qual é a melhor IA generativa? Uma grande coleção de vantagens e desvantagens das três principais ferramentas de geração de imagens, você entenderá depois de ler
Texto: Tri Editora: VickyXiao
A palavra-chave mais quente em 2023 é provavelmente IA.
Do ChatGPT, que nasceu do nada, ao Midjourney, que é popular em toda a Internet, e depois ao corpo a corpo em larga escala da IA global, em menos de um ano, o AIGC continuou a explodir, agitando o mundo.
Não importa em casa ou no exterior, todos parecem ter encontrado a passagem para o "novo mundo", seja em pesquisa e desenvolvimento de IA, seja em negócios + IA. Pode-se dizer que a IA se tornou a certeza mais certa do momento, levando o público à próxima era AIGC e realizando um novo salto de produtividade. Existem muitas ferramentas relacionadas à IA em casa e no exterior, mas todas são estendidas dos três algoritmos principais de Midjourney (MJ), Stable Diffusion (SD) e DALL-E. DALL-E foi atualizado para DALL-E2.
Hoje vamos explorar juntos quais são as vantagens, desvantagens e diferenças desses três algoritmos convencionais?
Introdução em segundo plano dos três "streams principais"
Midjourney é um software atualmente instalado na plataforma Discord. Foi desenvolvido por um estúdio nos Estados Unidos e estreou em março de 2022. Em apenas um ano, MJ atualizou e iterou para a versão V5 e rapidamente se tornou popular com sua arte. . Os mapas gerados dessas explosões nas redes sociais são todos gerados por MJ. Com sua incrível qualidade de renderização e modelo de comercialização perfeito, atraiu com sucesso um grande número de usuários pagantes e alcançou uma receita anual de 100 milhões de dólares americanos.
O DALL-E 2 foi desenvolvido e lançado pela equipe OpenAI. Ao contrário do Midjourney, as imagens geradas sob instruções simples geralmente tendem a ser realistas. O DALL-E 2 é o melhor dos três em termos de imagens realistas e instruções concisas.
Habilidade Expressiva
Vamos dar uma olhada em sua capacidade expressiva juntos. Sob a descrição de mesma palavra-chave, como está o feedback da imagem?
A partir da comparação na figura acima, podemos ver que o DALL-E 2 pode lidar muito bem com imagens da natureza e das pessoas. No momento, usando a API do DALL-E 2, três métodos de interação com imagens podem ser realizados: De acordo com para o prompt de texto Crie imagens do zero, crie edições de imagens existentes com base em novos prompts de texto, crie variações de imagens existentes.
Midjourney tem cores ricas e gráficos realistas em todas as tentativas. Ele é capaz de gerar imagens com base em solicitações do usuário. Midjourney é bom em adaptar o estilo de arte real para criar imagens com qualquer combinação de efeitos que o usuário desejar. Ele se destaca em efeitos ambientais, especialmente cenas de fantasia e ficção científica que se parecem com a arte do jogo.
E o Stable Diffusion é um modelo de código aberto que todos podem usar. Tem uma compreensão relativamente boa de imagens de arte contemporânea e pode produzir obras de arte cheias de detalhes. Só que é difícil para usuários comuns usarem. Atualmente, a discussão mais popular entre todos é quem é melhor, SD ou MJ, então testamos algumas imagens.
A partir dos detalhes da geração de imagens de personagens de desenhos animados, o SD é melhor.Com a mesma geração de palavras-chave, os recursos faciais gerados pelo SD são mais tridimensionais e requintados, e o Midjourney é mais artístico.
Ao gerar imagens realistas em estilo de ilustração, os dois são igualmente eficazes. A maior vantagem do SD é que os usuários podem remixar por meio de incorporação de modelo, LoRA ou rede, o que pode produzir efeitos inesperados.
Atualmente, o Stable Diffusion tem mais de mil modelos disponíveis para download. Cada modelo pode ser modificado ainda mais usando modelos LoRA, modelos de incorporação e hiper-redes; Midjourney é limitado em termos de modelos. Apenas os modelos v1 a v5 estão disponíveis e alguns modelos especiais, como niji, test, testp e HD. Existe um parâmetro adicional para "estilizar" a imagem. Mas, no geral, ainda empalidece em comparação com a difusão estável.
orientação do usuário
Na verdade, esses geradores de imagens AI têm suas próprias vantagens. De acordo com a experiência desses três algoritmos, resumimos alguns pontos e diferenças pendentes. Como escolhê-los pode ser determinado de acordo com suas próprias necessidades.
A interface deste modelo é simples e fácil de entender, e você pode gerar imagens facilmente sem registrar uma plataforma de terceiros. Você só precisa visitar o site e inserir o texto da palavra-chave na caixa de geração para criar imagens.
lFácil de usar
l Criatividade com flexibilidade
l Nenhuma plataforma de terceiros necessária
deficiência:
l imagem simples
l A precisão não é alta
l Só pode criar imagens quadradas
2、Meio da jornada
Ao contrário do DALL-E 2, você precisa primeiro criar uma conta Discord e inserir comandos como texto ou imagens para gerar imagens.
l Imagem de alta qualidade
l Os usuários podem personalizar a proporção do tamanho da imagem
l Controle flexível de parâmetros de imagem
deficiência:
l É mais complicado de usar
l Exigir que os usuários se registrem no Discord
l Depois que o tempo rápido acabar, o tempo de geração da imagem aumentará drasticamente
3、Difusão estável
Ambos Stable Diffusion e DALL·E-2 são baseados no modelo de difusão, que pode desenhar imagens de acordo com os descritores de texto de entrada (). Para completar a produção de imagens excelentes em difusão estável, é necessário o modelo correto + palavras de solicitação precisas + ajuste de parâmetros + tecnologia de pós-processamento.
l Operação web e instalação de modelos de código aberto para outras plataformas
l Mais liberdade criativa
l Um grande número de controles para personalizar os parâmetros da imagem
deficiência:
l Requer equipamento de hardware profissional e poderoso
l A qualidade da imagem é muito instável, depende da versão que você usa
l Alta dificuldade de aprendizado, difícil para usuários comuns controlarem
Resumindo, se você tiver uma saída de destino clara, por exemplo, você é um designer de arquitetura, então o Stable Diffusion atenderá melhor às suas necessidades criativas porque é mais controlável. E se você não tem um objetivo claro de controle criativo e deseja fazer algum trabalho criativo com pensamento divergente, a conveniência e o baixo limiar de Midjourney e DALL-E 2 serão sua melhor escolha.
Qual ferramenta de IA você prefere usar? Como é aplicado na vida profissional? Bem-vindo a compartilhar conosco nos comentários!