OpenAIのGPT-4は、3月のリリースから8か月が経過しましたが、依然として一般に公開されている最も強力なチャットボットです。 その前身であるChatGPTは、司法試験を受けた学生の10%よりも優れた成績を収めましたが、GPT-4は90%以上の成績を収めました。 口頭での推論、複雑な概念を単純な言語に分解し、ジョークが面白い理由を説明することにも優れています。 9月、OpenAIは、音声を介してモデルと対話し、画像を入力として使用する機能の展開を開始しました。 更新されたGPT-4 Vは、視覚障害者向けのツールを提供する組織であるBe My Eyesで、自然言語で画像コンテンツを口頭で説明するためにテストされました。
3. 独創的な映画編集:滑走路Gen-2
RunwayはGoogleが支援するスタートアップで、その視覚効果ツールを使用して、オスカーを受賞した映画「Everything Everywhere All At Once」の不気味な画像を作成しています。 6月、滑走路はGen-2モデルを発表しました。 新しいバージョンでは、誰でもテキストプロンプト、画像、またはその他のビデオから完全なビデオを生成できます。 Runwayの共同創設者兼CEOであるクリストバル・ヴァレンズエラは、この新技術を200年前のカメラの発明に例えています。 「AIは、物語の語り方を永遠に再発明し、完全に生成された完全な長編映画につながる新しいタイプのカメラです」と彼は言いました。 "
Metaは、そのSeamlessM4 T AIモデルを、銀河ヒッチハイクガイドのユニバーサル言語翻訳者であるバベルフィッシュと比較しています。 同社のソフトウェアは、音声またはテキストから約100の言語を理解することができ、音声読み上げ、テキストテキスト変換、音声テキスト変換、テキスト読み上げなどのさまざまな形式でリアルタイムで翻訳します。 Metaによると、このシステムは前任者よりもはるかに多くの言語を処理することに加えて、より効率的で、エラー率が低く、同じ文に混在する複数の言語を解読することもできます。 Metaはモデルをオープンソース化しており、そのコードは世界中の研究者が利用できます。
7. 素晴らしいパロディ:ソ-VITS-SVC
今年の初め、Ghostwriterという名前の匿名のクリエイターによる「Heart on My Sleeve」という曲が騒ぎを引き起こしました。 (この曲は合法的なストリーミングサービスによってすぐに削除されましたが、その前にバイラルになりました。 これらのサウンドは、So-VITS-SVCと呼ばれるオープンソースソフトウェアを介して生成され、技術者は歌手の声をニューラルネットワークでトレーニングし、AIで生成された音声を使用して任意の曲を作成できます。 愛好家は、バッドバニーからテイラースウィフト、ジェームズハットフィールドまで、Discordコミュニティで音声モデルを交換します。 同時に、ソフトウェアを採用したユーザーフレンドリーなWebサイトが出現しました。
タイム誌は、14のAIプロジェクトが一目でわかる「2023年のベストインベンション」リストを公開しています
10月24日、タイム誌は、人工知能、グリーンエネルギー、持続可能な開発などの主要分野をカバーする「2023年のベスト発明」のリストを発表しました。 私たちの生活、働き方、遊び方、可能性を考える工夫、効率性、インパクトなどから、合計200件の画期的な発明(および50件の特別賞発明)が選ばれました。
AIの分野で選択された14の発明の簡単な要約は次のとおりです。
1. すぐに使える無料編集:Adobe Photoshopの生成的拡張と生成的塗りつぶし
2. ゲームを変えるチャットボット: OpenAI GPT-4
3. 独創的な映画編集:滑走路Gen-2
4. 人工知能の信頼性:アリセオンフィーチャープリント
5. 空の目:デドローン市全体のドローン検出
6. マスター翻訳者:メタシームレスM4T
7. 素晴らしいパロディ:ソ-VITS-SVC
8. AI消防士:カリフォルニアとカリフォルニアの火災AI山火事検出器
9. 簡単に音楽を作成:安定したオーディオ
10. アニマルディフェンダー:トレイルガードAI
11. あなたの想像力を描く:OpenAIダル-E 3
12. 聞く:プロジェクトグーテンベルクオープンオーディオブックコレクション
13. ビート:オーディオシェイク
14. スマートフォンの再考:人道的なアイピン
注:人道的な投資家には、タイム誌の共同議長兼所有者であるマーク・ベニオフとリン・ベニオフが含まれます