A comparação mais abrangente: qual é a melhor IA generativa? Uma grande coleção de vantagens e desvantagens das três principais ferramentas de geração de imagens, você entenderá depois de ler

Question

Texto: Tri Editora: VickyXiao![](https://img.gateio.im/social/moments-bab2147faf-c6a4dbe7ea-dd1a6f-62a40f) *Fonte da imagem: Gerada pela ferramenta Unbounded AI*A palavra-chave mais quente em 2023 é provavelmente IA.Do ChatGPT, que nasceu do nada, ao Midjourney, que é popular em toda a Internet, e depois ao corpo a corpo em larga escala da IA global, em menos de um ano, o AIGC continuou a explodir, agitando o mundo.Não importa em casa ou no exterior, todos parecem ter encontrado a passagem para o "novo mundo", seja em pesquisa e desenvolvimento de IA, seja em negócios + IA. Pode-se dizer que a IA se tornou a certeza mais certa do momento, levando o público à próxima era AIGC e realizando um novo salto de produtividade. Existem muitas ferramentas relacionadas à IA em casa e no exterior, mas todas são estendidas dos três algoritmos principais de Midjourney (MJ), Stable Diffusion (SD) e DALL-E. DALL-E foi atualizado para DALL-E2.Hoje vamos explorar juntos quais são as vantagens, desvantagens e diferenças desses três algoritmos convencionais?## **Introdução em segundo plano dos três "streams principais"**Midjourney é um software atualmente instalado na plataforma Discord. Foi desenvolvido por um estúdio nos Estados Unidos e estreou em março de 2022. Em apenas um ano, MJ atualizou e iterou para a versão V5 e rapidamente se tornou popular com sua arte. . Os mapas gerados dessas explosões nas redes sociais são todos gerados por MJ. Com sua incrível qualidade de renderização e modelo de comercialização perfeito, atraiu com sucesso um grande número de usuários pagantes e alcançou uma receita anual de 100 milhões de dólares americanos.![](https://img.gateio.im/social/moments-bab2147faf-7bceae4c5a-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-2f8839a4bb-dd1a6f-62a40f)  ![](https://img.gateio.im/social/moments-bab2147faf-337bea44b6-dd1a6f-62a40f) O Stable Diffusion é desenvolvido pela startup britânica Stability AI em cooperação com vários pesquisadores acadêmicos e organizações sem fins lucrativos. É de uso gratuito. O código-fonte atual e o modelo de SD são de código aberto e podem ser usados localmente em Mac, PC ou até mesmo dispositivos móveis. Implantação (requer configuração de equipamento relativamente alta), você pode modelar DIY, muitas ferramentas de software em casa e no exterior, a maioria delas é desenvolvida com SD como lógica subjacente, e sua capacidade de controle e renderização também são muito fortes, e agora muitos designers o usam para realizar algum trabalho paralelo.O DALL-E 2 foi desenvolvido e lançado pela equipe OpenAI. Ao contrário do Midjourney, as imagens geradas sob instruções simples geralmente tendem a ser realistas. O DALL-E 2 é o melhor dos três em termos de imagens realistas e instruções concisas.![](https://img.gateio.im/social/moments-bab2147faf-fcbcf5df3f-dd1a6f-62a40f)## **Habilidade Expressiva**Vamos dar uma olhada em sua capacidade expressiva juntos. Sob a descrição de **mesma palavra-chave**, como está o feedback da imagem?![](https://img.gateio.im/social/moments-bab2147faf-9d9bc787a5-dd1a6f-62a40f) DALL·E 2 (esquerda), Midjourney (meio) e difusão estável (direita)![](https://img.gateio.im/social/moments-bab2147faf-0a8ad7581d-dd1a6f-62a40f) DALL·E 2 (esquerda), Midjourney (meio) e difusão estável (direita)![](https://img.gateio.im/social/moments-bab2147faf-944659dde5-dd1a6f-62a40f) DALL·E 2 (esquerda), Midjourney (meio) e difusão estável (direita)A partir da comparação na figura acima, podemos ver que o DALL-E 2 pode lidar muito bem com imagens da natureza e das pessoas. No momento, usando a API do DALL-E 2, três métodos de interação com imagens podem ser realizados: De acordo com para o prompt de texto Crie imagens do zero, crie edições de imagens existentes com base em novos prompts de texto, crie variações de imagens existentes.Midjourney tem cores ricas e gráficos realistas em todas as tentativas. Ele é capaz de gerar imagens com base em solicitações do usuário. Midjourney é bom em adaptar o estilo de arte real para criar imagens com qualquer combinação de efeitos que o usuário desejar. Ele se destaca em efeitos ambientais, especialmente cenas de fantasia e ficção científica que se parecem com a arte do jogo.E o Stable Diffusion é um modelo de código aberto que todos podem usar. Tem uma compreensão relativamente boa de imagens de arte contemporânea e pode produzir obras de arte cheias de detalhes. Só que é difícil para usuários comuns usarem. Atualmente, a discussão mais popular entre todos é quem é melhor, SD ou MJ, então testamos algumas imagens.![](https://img.gateio.im/social/moments-bab2147faf-8b655a73e5-dd1a6f-62a40f) Midjourney (à esquerda) e difusão estável (à direita)![](https://img.gateio.im/social/moments-bab2147faf-0f5e359b9d-dd1a6f-62a40f) Midjourney (à esquerda) e difusão estável (à direita)A partir dos detalhes da geração de imagens de personagens de desenhos animados, o SD é melhor.Com a mesma geração de palavras-chave, os recursos faciais gerados pelo SD são mais tridimensionais e requintados, e o Midjourney é mais artístico.![](https://img.gateio.im/social/moments-bab2147faf-2040b1f890-dd1a6f-62a40f) Midjourney (à esquerda) e difusão estável (à direita)Ao gerar imagens realistas em estilo de ilustração, os dois são igualmente eficazes. A maior vantagem do SD é que os usuários podem remixar por meio de incorporação de modelo, LoRA ou rede, o que pode produzir efeitos inesperados.![](https://img.gateio.im/social/moments-bab2147faf-26c0f07941-dd1a6f-62a40f) Midjourney (à esquerda) e difusão estável (à direita)Atualmente, o Stable Diffusion tem mais de mil modelos disponíveis para download. Cada modelo pode ser modificado ainda mais usando modelos LoRA, modelos de incorporação e hiper-redes; Midjourney é limitado em termos de modelos. Apenas os modelos v1 a v5 estão disponíveis e alguns modelos especiais, como niji, test, testp e HD. Existe um parâmetro adicional para "estilizar" a imagem. Mas, no geral, ainda empalidece em comparação com a difusão estável.## **orientação do usuário**Na verdade, esses geradores de imagens AI têm suas próprias vantagens. De acordo com a experiência desses três algoritmos, resumimos alguns pontos e diferenças pendentes. Como escolhê-los pode ser determinado de acordo com suas próprias necessidades.![](https://img.gateio.im/social/moments-bab2147faf-88e6615b1a-dd1a6f-62a40f) **1、DALL-E2**A interface deste modelo é simples e fácil de entender, e você pode gerar imagens facilmente sem registrar uma plataforma de terceiros. Você só precisa visitar o site e inserir o texto da palavra-chave na caixa de geração para criar imagens.![](https://img.gateio.im/social/moments-bab2147faf-00c5248d94-dd1a6f-62a40f) vantagem:lFácil de usarl Criatividade com flexibilidadel Nenhuma plataforma de terceiros necessáriadeficiência:l imagem simplesl A precisão não é altal Só pode criar imagens quadradas**2、Meio da jornada**Ao contrário do DALL-E 2, você precisa primeiro criar uma conta Discord e inserir comandos como texto ou imagens para gerar imagens.![](https://img.gateio.im/social/moments-bab2147faf-76abd5e268-dd1a6f-62a40f) vantagem:l Imagem de alta qualidadel Os usuários podem personalizar a proporção do tamanho da imageml Controle flexível de parâmetros de imagemdeficiência:l É mais complicado de usarl Exigir que os usuários se registrem no Discordl Depois que o tempo rápido acabar, o tempo de geração da imagem aumentará drasticamente**3、Difusão estável**Ambos Stable Diffusion e DALL·E-2 são baseados no modelo de difusão, que pode desenhar imagens de acordo com os descritores de texto de entrada (). Para completar a produção de imagens excelentes em difusão estável, é necessário o modelo correto + palavras de solicitação precisas + ajuste de parâmetros + tecnologia de pós-processamento.![](https://img.gateio.im/social/moments-bab2147faf-77e2706d3b-dd1a6f-62a40f) vantagem:l Operação web e instalação de modelos de código aberto para outras plataformasl Mais liberdade criatival Um grande número de controles para personalizar os parâmetros da imagemdeficiência:l Requer equipamento de hardware profissional e poderosol A qualidade da imagem é muito instável, depende da versão que você usal Alta dificuldade de aprendizado, difícil para usuários comuns controlaremResumindo, se você tiver uma saída de destino clara, por exemplo, você é um designer de arquitetura, então o Stable Diffusion atenderá melhor às suas necessidades criativas porque é mais controlável. E se você não tem um objetivo claro de controle criativo e deseja fazer algum trabalho criativo com pensamento divergente, a conveniência e o baixo limiar de Midjourney e DALL-E 2 serão sua melhor escolha.Qual ferramenta de IA você prefere usar? Como é aplicado na vida profissional? Bem-vindo a compartilhar conosco nos comentários!