タイム誌は、14のAIプロジェクトが一目でわかる「2023年のベストインベンション」リストを公開しています

10月24日、タイム誌は、人工知能、グリーンエネルギー、持続可能な開発などの主要分野をカバーする「2023年のベスト発明」のリストを発表しました。 私たちの生活、働き方、遊び方、可能性を考える工夫、効率性、インパクトなどから、合計200件の画期的な発明(および50件の特別賞発明)が選ばれました。

AIの分野で選択された14の発明の簡単な要約は次のとおりです。

1. すぐに使える無料編集:Adobe Photoshopの生成的拡張と生成的塗りつぶし

アドビは、世界で最も人気のある画像エディターであるPhotoshopに人工知能を組み込むことで、強力なAIを何百万人もの人々の手に渡しています。 AdobeのAI画像ジェネレーターFireflyを搭載したPhotoshopには、Generative ExpandとGenerative Fillが含まれるようになりました。 前者を使用すると、ユーザーは写真の境界の外側にある架空のコンテンツをシームレスに入力できます。 後者は、いくつかの簡単な単語を入力するだけで、既存の画像にコンテンツを追加または削除できます。 どちらの機能も技術的な専門知識を必要としません。 アドビのデジタルメディア担当シニアバイスプレジデントであるAshley Still氏は、これらのオプションにより、「顧客は想像以上に早くビジョンを実現することができる」と述べています。

2. ゲームを変えるチャットボット: OpenAI GPT-4

OpenAIのGPT-4は、3月のリリースから8か月が経過しましたが、依然として一般に公開されている最も強力なチャットボットです。 その前身であるChatGPTは、司法試験を受けた学生の10%よりも優れた成績を収めましたが、GPT-4は90%以上の成績を収めました。 口頭での推論、複雑な概念を単純な言語に分解し、ジョークが面白い理由を説明することにも優れています。 9月、OpenAIは、音声を介してモデルと対話し、画像を入力として使用する機能の展開を開始しました。 更新されたGPT-4 Vは、視覚障害者向けのツールを提供する組織であるBe My Eyesで、自然言語で画像コンテンツを口頭で説明するためにテストされました。

3. 独創的な映画編集:滑走路Gen-2

RunwayはGoogleが支援するスタートアップで、その視覚効果ツールを使用して、オスカーを受賞した映画「Everything Everywhere All At Once」の不気味な画像を作成しています。 6月、滑走路はGen-2モデルを発表しました。 新しいバージョンでは、誰でもテキストプロンプト、画像、またはその他のビデオから完全なビデオを生成できます。 Runwayの共同創設者兼CEOであるクリストバル・ヴァレンズエラは、この新技術を200年前のカメラの発明に例えています。 「AIは、物語の語り方を永遠に再発明し、完全に生成された完全な長編映画につながる新しいタイプのカメラです」と彼は言いました。 "

4. 人工知能の信頼性:アリセオンフィーチャープリント

数兆ドル規模の偽造品問題の解決策は、携帯電話のカメラを時計やハンドバッグに向け、スマートソフトウェアにその信憑性を判断させるのと同じくらい簡単です。 FeaturePrintは、最初に物理オブジェクトの小さな表面の詳細を「見て」、それらを一意の数学的識別子に「フィンガープリント」する光学人工知能テクノロジーです。 次に、ボタンをクリックするだけで、アイテムの信憑性を示します。 AlitheonのCEOであるRoei Ganzarski氏は、「ステッカー、ラベル、マーキングは必要ありません。 顧客の1つは、世界中の銀行向けに金の延べ棒を製造するArgor-Heraeusです。 "

5. 空の目:デドローン市全体のドローン検出

ドローンは破壊と利益の両方をもたらすことができます。 Dedroneの都市全体のドローン検出製品は、地理的領域の周りに仮想シールドを投げ、ドローンが指定された空域に入った場合に数秒以内に法執行機関に警告することができます。 Dedroneは、無線周波数、ADS-Bデータ(航空機でも使用)、RemoteIDビーコンなど、ドローンが発する独自の混合信号を追跡して、侵入の場所を特定します。 同社の最高マーケティング責任者であるMary-Lou Smuldersは、それを以前には存在しなかったドローンの航空交通管制システムに例えました。 顧客には、インフラストラクチャを保護するためにそれを使用しているCon Edisonが含まれます。 バルセロナの警察。 そして未知の数の空港。

6. マスター翻訳者:メタシームレスM4T

Metaは、そのSeamlessM4 T AIモデルを、銀河ヒッチハイクガイドのユニバーサル言語翻訳者であるバベルフィッシュと比較しています。 同社のソフトウェアは、音声またはテキストから約100の言語を理解することができ、音声読み上げ、テキストテキスト変換、音声テキスト変換、テキスト読み上げなどのさまざまな形式でリアルタイムで翻訳します。 Metaによると、このシステムは前任者よりもはるかに多くの言語を処理することに加えて、より効率的で、エラー率が低く、同じ文に混在する複数の言語を解読することもできます。 Metaはモデルをオープンソース化しており、そのコードは世界中の研究者が利用できます。

7. 素晴らしいパロディ:ソ-VITS-SVC

今年の初め、Ghostwriterという名前の匿名のクリエイターによる「Heart on My Sleeve」という曲が騒ぎを引き起こしました。 (この曲は合法的なストリーミングサービスによってすぐに削除されましたが、その前にバイラルになりました。 これらのサウンドは、So-VITS-SVCと呼ばれるオープンソースソフトウェアを介して生成され、技術者は歌手の声をニューラルネットワークでトレーニングし、AIで生成された音声を使用して任意の曲を作成できます。 愛好家は、バッドバニーからテイラースウィフト、ジェームズハットフィールドまで、Discordコミュニティで音声モデルを交換します。 同時に、ソフトウェアを採用したユーザーフレンドリーなWebサイトが出現しました。

8. AI消防士:カリフォルニアとカリフォルニアの火災AI山火事検出器

山火事が広がる前に検出することは、現在、世界の多くの地域を悩ませている課題です。 カリフォルニア大学サンディエゴ校の公安プログラムであるカリフォルニアは、人工知能を使用して支援しています。 このプロジェクトは、Cal Fireと提携して、州全体の森林に広がる1,050台以上のカメラのネットワークから煙やその他の火災の初期の兆候を検出するようにAIをトレーニングしました。 システムが異常を検出するとすぐに、SMSで地元の消防署に警告します。 最初の2か月で、システムはアラームコールを受信する前に77件の火災を正しく識別しました。 カリフォルニアの共同主任研究者であるファルコ・クエスター氏は、「[この[システム]の最大のサクセスストーリーは、聞いたことのない火災です。 "

9. 簡単に音楽を作成:安定したオーディオ

Stability AIによって作成されたStable Audioは、人工知能の力を利用して、いくつかの簡単なテキストプロンプトで必要なほぼすべてのサウンドや曲を生成します。 (たとえば、「アンビエントテクノ、ドラムマシン、ピースフル、インストゥルメンタル」と入力すると、ファンキーなラウンジでは目立たないリラックスしたニューエイジミュージックが生成されます。 モデルは、800,000を超えるオーディオファイルを含み、合計20,000時間、プロとアマチュアの両方のプロジェクトに使用できるインベントリオーディオサイトのデータセット(つまり、すべて正当です)でトレーニングされました。

10. アニマルディフェンダー:トレイルガードAI

インドとアフリカの一部では、保護地域でさえ、密猟はゾウと大型猫の絶滅に対する最大の脅威であり続けています。 米国の環境団体Resolveが開発したTrailGuard AIは、Intelテクノロジーを搭載した小型カメラを使用して、絶滅危惧種を監視し、密猟者を発見します。 このシステムは、携帯電話または長距離無線信号を使用して、わずか30秒で当局の電話に画像を送信します。 TrailGuard のカスタムビルド AI モデルは、人間だけでなく、トラからハイエナまで、関心のあるあらゆる種を検出するようにトレーニングされています。 東アフリカでの実験段階で30人以上の密猟者を逮捕したこの技術は、現在、トラが密集するインド中部で大規模な実験が行われています。

11. あなたの想像力を描く:OpenAIダル-E 3

OpenAIが昨年11月にChatGPTを世界にリリースしたとき、それはAIの世界に革命をもたらしました。 同社は、AIを利用した画像ジェネレーターの新しく改良されたバージョンであるDALL-E 3が同じ影響を与えることを望んでいます。 DALL-E 3の発明者であるOpenAIのAditya Ramesh氏は、以前の画像ジェネレーターは、最良の結果を得るために、文字列にマイナス記号や数字を追加するなど、新しい技術言語を学ぶ必要があったと述べています。 一方、DALL-E 3はChatGPTに折りたたまれているため、ユーザーはセッションコマンドを入力して、その説明に一致する画像を取得できます。

12. 聞く:プロジェクトグーテンベルクオープンオーディオブックコレクション

プロジェクトグーテンベルクは、電子書籍をよりアクセスしやすくするために1971年に設立された最も古いデジタルライブラリです。 しかし、CEOのグレッグ・ニュービーは、「作成も拡散も得意ではない」と述べています。 その結果、マイクロソフトとMITは協力して、テキスト読み上げ技術を利用して5,000冊の本を無料で合成ナレーションオーディオブックに変換するOpen Audiobook Collectionを作成し、Spotifyでダウンロードできるようになりました。 プロジェクトに燃料を供給したソフトウェアも無料でリリースされました。

13. ビート:オーディオシェイク

そのメンバーは、最も偉大なロックバンドの1つが最近、1970年代のヒット曲をコマーシャルで使用する契約を結んだとき、恍惚としていました。 しかし、落とし穴があります:広告プロデューサーは楽器だけを望んでいます、そしてバンドが持っているのは最終的なミックスだけです。 そこで、ロックバンドのチームは、AIプログラムが事前に録音されたオーディオ要素を分離し、それらを個々のコンポーネントに分解する会社であるAudioShakeに連絡を取りました。 「私たちはオーディオをインタラクティブで編集可能なものにし、アーティストがお金を稼ぐのに役立つこれらの本当に実用的な用途を推進することができます」と共同創設者兼CEOのジェシカ・パウエルは述べています。

14. スマートフォンの再考:人道的なアイピン

Humaneを設立した2人の元Apple幹部は、スクリーンのない未来を思い描いており、Ai Pinは彼らの最初のステップでした。 軽量のHumane Aiピンが衣服に磁気的にスナップすると、AIパーソナルアシスタントになります。 独自のソフトウェアとOpenAIのGPTの組み合わせを使用して、このデバイスでは、複雑な質問から電話やテキストメッセージの発信まで、すべて1回の注文ですべてを実行できます。 同時に、内蔵カメラは物を識別し、食品のカロリー推定などのコンテキスト情報を提供できます。 PINのカメラ、マイク、または入力センサーがアクティブなときはいつでも、トラストライトと呼ばれる目立つプライバシーインジケーターが点灯し、周囲の誰もがそれが聞いているか録音していることを確実に知ることができます。 視覚効果が必要な場合は、ピコプロジェクターが伸ばした手のひらに直接投影します。 発売は11月9日を予定しています。

注:人道的な投資家には、タイム誌の共同議長兼所有者であるマーク・ベニオフとリン・ベニオフが含まれます

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)