文:トライ 編集者:VickyXiao
画像の出典: Unbounded AI ツールによって生成
2023年に最もホットなキーワードはおそらくAIだろう。
突如誕生したChatGPTから、インターネット上で流行するMidjourney、そして世界規模のAI大乱戦に至るまで、1年足らずの間にAIGCは爆発的に爆発を続け、世界を震撼させてきた。
国内外を問わず、誰もがAIの研究開発、あるいはビジネス+AIにおいて「新世界」への切符を見つけたようだ。 AIは現時点で最も確実なものとなり、国民を次のAIGC時代へ導き、新たな生産性の飛躍を実現すると言えるでしょう。 AI関連のツールは国内外に数多くありますが、いずれもMidjourney(MJ)、Stable Diffusion(SD)、DALL-Eの3つの主流アルゴリズムを拡張したもので、DALL-EはDALL-E2にバージョンアップされています。
今日は、これら 3 つの主流アルゴリズムの長所、短所、違いは何なのかを一緒に探っていきます。
Midjourney は現在 Discord プラットフォームにインストールされているソフトウェアです。米国のスタジオによって開発され、2022 年 3 月にデビューしました。わずか 1 年で、MJ は V5 バージョンに更新および反復され、その芸術性ですぐに人気になりました。ソーシャル ネットワーク上で生成されたこれらの爆発のマップはすべて MJ によって生成されました。その驚異的なレンダリング品質と完璧な商品化モデルにより、多くの有料ユーザーを魅了することに成功し、年間収益 1 億ドルを達成しました。
Stable Diffusion は英国のスタートアップ企業 Stability AI が複数の学術研究者や非営利団体と協力して開発したもので、無料で使用できます。現在の SD ソース コードとモデルはオープンソース化されており、Mac 上でローカルに使用できます。 PC、またはモバイルデバイスへの展開(比較的高度な機器構成が必要)、DIY モデル、国内外の多くのソフトウェアツール、それらのほとんどは基礎となるロジックとして SD で開発されており、その制御性とレンダリング能力も非常に優れています強力で、今では多くのデザイナーが副業を行うためにそれを使用しています。
DALL-E 2 は OpenAI チームによって開発され、発売されました。Midjourney とは異なり、単純な指示で生成される画像は一般にリアルになる傾向があります。DALL-E 2 は、リアルな画像と簡潔なプロンプトの点で 3 つの中で最高です。
彼らの表現力を一緒に見てみましょう。同じキーワードの説明の下で、彼らのイメージのフィードバックはどうですか?
DALL・E 2(左)、Midjourney(中)、Stable Diffusion(右)
上図の比較から、DALL-E 2 は自然や人物の画像を非常にうまく処理できることがわかります。現在、DALL-E 2 の API を使用することで、画像と対話する 3 つの方法が実現できます。テキスト プロンプトへ 画像を最初から作成したり、新しいテキスト プロンプトに基づいて既存の画像を編集したり、既存の画像のバリエーションを作成したりできます。
Midjourney は、あらゆる試みにおいて豊かな色彩とリアルなグラフィックスを備えています。ユーザーのプロンプトに基づいて画像を生成できます。 Midjourney は、実際のアート スタイルを適応させて、ユーザーが望む効果を任意に組み合わせた画像を作成するのが得意です。環境効果、特にゲーム アートのように見えるファンタジーや SF シーンに優れています。
そして、Stable Diffusion は誰もが使用できるオープンソース モデルです。現代アートのイメージを比較的よく理解しており、ディテールに富んだアートワークを作成できます。ただ、一般ユーザーには使いにくいです。現在、SD と MJ のどちらが優れているかという議論が最も人気があるため、いくつかの画像をテストしました。
ミッドジャーニー (左) と安定拡散 (右)
漫画のキャラクターの画像生成の詳細から見ると、SD の方が優れています。同じキーワード生成では、SD で生成された顔の特徴はより立体的で精緻であり、Midjourney はより芸術的です。
リアルなイラスト風の画像を生成する場合、両者は同等の効果を発揮しますが、SD の最大の利点は、ユーザーがモデルの埋め込み、LoRA、ネットワークを通じてリミックスできることで、予期せぬ効果を生み出すことができることです。
Stable Diffusion では現在、1,000 を超えるモデルをダウンロードできます。各モデルは、LoRA モデル、埋め込みモデル、ハイパーネットワークを使用してさらに変更できますが、Midjourney はモデルの点で制限されています。 v1 ~ v5 モデルと、niji、test、testp、HD などの一部の特殊なモデルのみが利用可能です。画像を「スタイル化」するための追加パラメータがあります。しかし、全体としては、安定した拡散と比較するとまだ見劣りします。
実際、これらの AI 画像生成ツールにはそれぞれ利点があり、これら 3 つのアルゴリズムの経験に基づいて、いくつかの重要な点と相違点をまとめました。
1、DALL-E2
このモデルのインターフェイスはシンプルで理解しやすく、サードパーティのプラットフォームを登録することなく、Web サイトにアクセスして生成ボックスにキーワードのテキストを入力するだけで簡単に画像を生成できます。
アドバンテージ:
l 使いやすい
l 柔軟性のある創造性
l サードパーティのプラットフォームは必要ありません
欠点:
シンプルなイメージ
l 精度は高くありません
l 正方形の画像しか作成できません
2、旅の途中
DALL-E 2とは異なり、最初にDiscordアカウントを作成する必要があり、画像を生成するにはテキストや画像などのコマンドを入力する必要があります。
l 高画質画像
l ユーザーは画像サイズの比率をカスタマイズできます
l 画像パラメータの柔軟な制御
l 使い方はさらに複雑です
l ユーザーにDiscordへの登録を要求する
l 高速時間がなくなると、画像生成時間が大幅に増加します
3、安定拡散
Stable Diffusion と DALL・E-2 は両方とも拡散モデルに基づいており、入力されたテキスト記述子に従って画像を描画できます ()。 Stable Diffusion で優れた画像の制作を完了するには、正しいモデル + 正確なプロンプト ワード + パラメータ調整 + 後処理技術が必要です。
l Web操作とオープンソースモデルの他のプラットフォームへのインストール
l 創造的な自由がさらに広がる
l 画像パラメータをカスタマイズするための多数のコントロール
l 専門的で強力なハードウェア機器が必要です
l 画質は使用しているバージョンに依存するため、非常に不安定です
l 学習難易度が高く、一般ユーザーが制御するのは困難
要約すると、建築デザイナーなど、明確な目標出力がある場合は、安定した拡散のほうが制御しやすいため、クリエイティブなニーズをよりよく満たすことができます。また、明確なクリエイティブコントロールの目標がなく、発散的思考でクリエイティブな作業をしたい場合は、Midjourney と DALL-E 2 の利便性と敷居の低さが最良の選択となるでしょう。
どの AI ツールを使用することを好みますか?それは仕事生活にどのように適用されますか?コメントでぜひシェアしてください!
221k 投稿
185k 投稿
140k 投稿
79k 投稿
66k 投稿
62k 投稿
60k 投稿
57k 投稿
52k 投稿
51k 投稿
最も包括的な比較: 最も優れた生成 AI はどれですか?読めばわかる、トップ3の画像生成ツールの長所と短所を大まとめ
文:トライ 編集者:VickyXiao
2023年に最もホットなキーワードはおそらくAIだろう。
突如誕生したChatGPTから、インターネット上で流行するMidjourney、そして世界規模のAI大乱戦に至るまで、1年足らずの間にAIGCは爆発的に爆発を続け、世界を震撼させてきた。
国内外を問わず、誰もがAIの研究開発、あるいはビジネス+AIにおいて「新世界」への切符を見つけたようだ。 AIは現時点で最も確実なものとなり、国民を次のAIGC時代へ導き、新たな生産性の飛躍を実現すると言えるでしょう。 AI関連のツールは国内外に数多くありますが、いずれもMidjourney(MJ)、Stable Diffusion(SD)、DALL-Eの3つの主流アルゴリズムを拡張したもので、DALL-EはDALL-E2にバージョンアップされています。
今日は、これら 3 つの主流アルゴリズムの長所、短所、違いは何なのかを一緒に探っていきます。
3 つの「トップ ストリーム」の背景紹介
Midjourney は現在 Discord プラットフォームにインストールされているソフトウェアです。米国のスタジオによって開発され、2022 年 3 月にデビューしました。わずか 1 年で、MJ は V5 バージョンに更新および反復され、その芸術性ですぐに人気になりました。ソーシャル ネットワーク上で生成されたこれらの爆発のマップはすべて MJ によって生成されました。その驚異的なレンダリング品質と完璧な商品化モデルにより、多くの有料ユーザーを魅了することに成功し、年間収益 1 億ドルを達成しました。
DALL-E 2 は OpenAI チームによって開発され、発売されました。Midjourney とは異なり、単純な指示で生成される画像は一般にリアルになる傾向があります。DALL-E 2 は、リアルな画像と簡潔なプロンプトの点で 3 つの中で最高です。
表現力
彼らの表現力を一緒に見てみましょう。同じキーワードの説明の下で、彼らのイメージのフィードバックはどうですか?
上図の比較から、DALL-E 2 は自然や人物の画像を非常にうまく処理できることがわかります。現在、DALL-E 2 の API を使用することで、画像と対話する 3 つの方法が実現できます。テキスト プロンプトへ 画像を最初から作成したり、新しいテキスト プロンプトに基づいて既存の画像を編集したり、既存の画像のバリエーションを作成したりできます。
Midjourney は、あらゆる試みにおいて豊かな色彩とリアルなグラフィックスを備えています。ユーザーのプロンプトに基づいて画像を生成できます。 Midjourney は、実際のアート スタイルを適応させて、ユーザーが望む効果を任意に組み合わせた画像を作成するのが得意です。環境効果、特にゲーム アートのように見えるファンタジーや SF シーンに優れています。
そして、Stable Diffusion は誰もが使用できるオープンソース モデルです。現代アートのイメージを比較的よく理解しており、ディテールに富んだアートワークを作成できます。ただ、一般ユーザーには使いにくいです。現在、SD と MJ のどちらが優れているかという議論が最も人気があるため、いくつかの画像をテストしました。
漫画のキャラクターの画像生成の詳細から見ると、SD の方が優れています。同じキーワード生成では、SD で生成された顔の特徴はより立体的で精緻であり、Midjourney はより芸術的です。
リアルなイラスト風の画像を生成する場合、両者は同等の効果を発揮しますが、SD の最大の利点は、ユーザーがモデルの埋め込み、LoRA、ネットワークを通じてリミックスできることで、予期せぬ効果を生み出すことができることです。
Stable Diffusion では現在、1,000 を超えるモデルをダウンロードできます。各モデルは、LoRA モデル、埋め込みモデル、ハイパーネットワークを使用してさらに変更できますが、Midjourney はモデルの点で制限されています。 v1 ~ v5 モデルと、niji、test、testp、HD などの一部の特殊なモデルのみが利用可能です。画像を「スタイル化」するための追加パラメータがあります。しかし、全体としては、安定した拡散と比較するとまだ見劣りします。
ユーザーガイド
実際、これらの AI 画像生成ツールにはそれぞれ利点があり、これら 3 つのアルゴリズムの経験に基づいて、いくつかの重要な点と相違点をまとめました。
このモデルのインターフェイスはシンプルで理解しやすく、サードパーティのプラットフォームを登録することなく、Web サイトにアクセスして生成ボックスにキーワードのテキストを入力するだけで簡単に画像を生成できます。
l 使いやすい
l 柔軟性のある創造性
l サードパーティのプラットフォームは必要ありません
欠点:
シンプルなイメージ
l 精度は高くありません
l 正方形の画像しか作成できません
2、旅の途中
DALL-E 2とは異なり、最初にDiscordアカウントを作成する必要があり、画像を生成するにはテキストや画像などのコマンドを入力する必要があります。
l 高画質画像
l ユーザーは画像サイズの比率をカスタマイズできます
l 画像パラメータの柔軟な制御
欠点:
l 使い方はさらに複雑です
l ユーザーにDiscordへの登録を要求する
l 高速時間がなくなると、画像生成時間が大幅に増加します
3、安定拡散
Stable Diffusion と DALL・E-2 は両方とも拡散モデルに基づいており、入力されたテキスト記述子に従って画像を描画できます ()。 Stable Diffusion で優れた画像の制作を完了するには、正しいモデル + 正確なプロンプト ワード + パラメータ調整 + 後処理技術が必要です。
l Web操作とオープンソースモデルの他のプラットフォームへのインストール
l 創造的な自由がさらに広がる
l 画像パラメータをカスタマイズするための多数のコントロール
欠点:
l 専門的で強力なハードウェア機器が必要です
l 画質は使用しているバージョンに依存するため、非常に不安定です
l 学習難易度が高く、一般ユーザーが制御するのは困難
要約すると、建築デザイナーなど、明確な目標出力がある場合は、安定した拡散のほうが制御しやすいため、クリエイティブなニーズをよりよく満たすことができます。また、明確なクリエイティブコントロールの目標がなく、発散的思考でクリエイティブな作業をしたい場合は、Midjourney と DALL-E 2 の利便性と敷居の低さが最良の選択となるでしょう。
どの AI ツールを使用することを好みますか?それは仕事生活にどのように適用されますか?コメントでぜひシェアしてください!