AI のおかしな点の 1 つは、その中心となる概念は 50 年以上前に遡るにもかかわらず、最近までテクノロジーに精通した人でもその概念を知っている人がほとんどいなかったことです。ですから、迷っていても心配しないでください。誰でもそうなのです。
前もって 1 つ明確にしておきたいのは、「人工知能」と呼ばれていますが、この用語は少し誤解を招きやすいということです。現在、知能の統一された定義はありませんが、これらのシステムが行うことは、この計算機の入出力がより柔軟であることを除けば、脳というよりも間違いなく計算機に近いものです。 AI は「人工ココナッツ」のようなものかもしれません。それは模倣知能です。
モデルは、入力を受け取り出力を返す実際のコードのコレクションです。統計モデル、つまり複雑な自然プロセスをシミュレートするモデリング システムと用語が類似しているのは偶然ではありません。 AI では、モデルは、何を行うか、何を生成するかに関係なく、ChatGPT のような完全なシステム、またはほぼすべての AI または機械学習の構造を参照できます。モデルにはさまざまなサイズがあり、これはモデルが占有するストレージ容量と実行に必要なコンピューティング能力を意味します。そしてそれはすべて、モデルがどのようにトレーニングされたかによって決まります。
### 訓練
AI モデルを作成するには、システムの基礎を形成するニューラル ネットワークが、データ セットまたはコーパスと呼ばれる一連の情報にさらされます。そうすることで、これらの広大なネットワークはそのデータの統計的表現を作成します。このトレーニング プロセスは最も計算量が多く、巨大な高性能コンピューターでは数週間から数か月かかります。その理由は、ネットワークが複雑であるだけでなく、データセットが非常に大きくなる可能性があるためです。数十億の単語や画像を分析し、巨大な統計モデルで表現する必要があります。一方、モデルがトレーニングされると、はるかに小さく、要求の少ない、推論と呼ばれるプロセスを使用できるようになります。
誰もが生成 AI について話しています。これは、画像やテキストなどの生の出力を生成する AI モデルを単に指す広義の用語です。要約する AI、再編成する AI、認識する AI などがありますが、実際に何かを生成する AI (「生成」するかどうかは議論の余地があります) が現在特に人気があります。 AI が何かを生成したからといって、それが正しいという意味ではなく、さらには現実を反映しているというわけでもないことに注意してください。ただ、物語や絵のように、求めなければ存在しないのです。
画像生成はさまざまな方法で行うことができますが、最も成功しているのは拡散です。これは、Stable Diffusion、Midjourney、およびその他の人気のある生成 AI の中心となる技術です。拡散モデルは、元の画像が何も残らなくなるまでデジタル ノイズを追加することで徐々に劣化した画像を表示することでトレーニングされます。これを観察することで、拡散モデルは逆のプロセスを実行することも学習し、純粋なノイズに徐々にディテールを追加して、任意に定義された画像を形成します。グラフィックスではそれを超えた取り組みを始めていますが、このテクノロジーはしっかりしていて比較的理解しやすいため、すぐに廃れてしまうでしょう。
オリジナルまたは派生アートの作成を依頼された AI が幻覚を見ている。たとえば、LLM にヨギ・ベラのスタイルで愛の詩を書くように指示すると、データセットにそのようなものが存在しない場合でも、喜んでそうするでしょう。しかし、事実に基づく回答が必要な場合には、これが問題になる可能性があり、モデルは半分現実、半分幻想的な回答を自信を持って提示します。現在のところ、モデル自体は実際には何が「真」か「偽」かを知らず、可能な限りパターンを完成させようとしているだけであるため、自分でチェックする以外にどれがどれであるかを簡単に判断する方法はありません。
ご想像のとおり、マイクロソフトは AI 研究にそれなりの努力をしてきましたが、他の企業と同様に、その実験を主要な製品に応用することには多かれ少なかれ失敗していました。同社の最も賢明な行動は、OpenAI への初期投資であり、これにより同社との独占的な長期パートナーシップが生まれ、現在は Bing 会話型エージェントを強化しています。同社自身の貢献は小さく、直接的に応用できるものではありませんが、同社にはかなりの研究力があります。
### グーグル
ムーンショットで知られる Google は、その研究者が今日の AI 爆発に直接つながるテクノロジーであるトランスフォーマーを発明したにもかかわらず、どういうわけか AI の機会を逃しました。現在、同社は独自のLLMやその他のエージェントを開発しようとしているが、過去10年のほとんどをAI「仮想アシスタント」という時代遅れの概念を推進することに費やしてきたため、明らかに巻き返しを図っているところだ。 CEOのサンダー・ピチャイ氏は、同社は検索と生産性においてAIに断固として遅れをとっていると繰り返し述べた。
物議を醸しているが避けられない安定性は、インターネット上のあらゆるものを収集し、それを実行するハードウェアを所有している場合に、トレーニングする生成 AI モデルを無料で利用できるようにする、「何でも好きなもの」AI 実装のオープンソース ジャンルを代表しています。これは、「情報は自由になりたい」という哲学に非常によく適合しますが、同時に、ポルノ画像の生成や知的財産の同意なしでの使用(場合によっては同時に)など、倫理的に疑わしいプロジェクトも加速します。
AI ガイド: AI の主要な概念と主要なプレーヤーの概要
出典: Techcrunch
編集:バビット
人工知能 (AI) は、音楽やメディアからビジネスや生産性、さらにはデートに至るまで、現代生活のあらゆる隅々に浸透しているようです。いろいろありすぎて追いつくのが大変です。この記事では、AI の最新の大きな発展から、この急速に変化する分野の最新の状況を知るために知っておく必要がある用語や企業まで、あらゆるものを取り上げます。
まず、人工知能とは何でしょうか?
機械学習としても知られる人工知能は、ニューラル ネットワークに基づくソフトウェア システムです。この技術は実際には数十年前に開発されましたが、強力な新しいコンピューティング リソースのおかげで最近繁栄しています。現在、AI は効果的な音声認識と画像認識を実現し、合成画像と音声を生成する機能を実現しています。研究者たちは、人工知能がウェブの閲覧、チケットの注文、レシピの調整などを行えるようにすることに取り組んでいます。
しかし、マトリックス風のマシンの台頭について心配しているのであれば、心配する必要はありません。それについては後で話します。
この AI ガイドは、次の 2 つの主要な部分で構成されています。
AI 101
AI のおかしな点の 1 つは、その中心となる概念は 50 年以上前に遡るにもかかわらず、最近までテクノロジーに精通した人でもその概念を知っている人がほとんどいなかったことです。ですから、迷っていても心配しないでください。誰でもそうなのです。
前もって 1 つ明確にしておきたいのは、「人工知能」と呼ばれていますが、この用語は少し誤解を招きやすいということです。現在、知能の統一された定義はありませんが、これらのシステムが行うことは、この計算機の入出力がより柔軟であることを除けば、脳というよりも間違いなく計算機に近いものです。 AI は「人工ココナッツ」のようなものかもしれません。それは模倣知能です。
以下は、AI に関するあらゆる議論で登場する基本的な用語です。
ニューラルネットワーク
私たちの脳は主に、ニューロンと呼ばれる相互接続された細胞で構成されており、それらが互いに噛み合って、タスクを実行し、情報を保存する複雑なネットワークを形成します。人々は 1960 年代からこの驚くべきシステムをソフトウェアで再現しようと試みてきましたが、必要な処理能力は、GPU によって数値的に定義されたニューラル ネットワークが普及した 15 ~ 20 年前まで広く利用できませんでした。
本質的に、それらは単なる多数の点と線です。点はデータであり、線はそれらの値間の統計的関係です。脳と同様に、これにより、入力を迅速に受け取り、ネットワークを介して出力を生成する多機能システムを作成できます。この体系をモデルと呼びます。
### モデル
モデルは、入力を受け取り出力を返す実際のコードのコレクションです。統計モデル、つまり複雑な自然プロセスをシミュレートするモデリング システムと用語が類似しているのは偶然ではありません。 AI では、モデルは、何を行うか、何を生成するかに関係なく、ChatGPT のような完全なシステム、またはほぼすべての AI または機械学習の構造を参照できます。モデルにはさまざまなサイズがあり、これはモデルが占有するストレージ容量と実行に必要なコンピューティング能力を意味します。そしてそれはすべて、モデルがどのようにトレーニングされたかによって決まります。
### 訓練
AI モデルを作成するには、システムの基礎を形成するニューラル ネットワークが、データ セットまたはコーパスと呼ばれる一連の情報にさらされます。そうすることで、これらの広大なネットワークはそのデータの統計的表現を作成します。このトレーニング プロセスは最も計算量が多く、巨大な高性能コンピューターでは数週間から数か月かかります。その理由は、ネットワークが複雑であるだけでなく、データセットが非常に大きくなる可能性があるためです。数十億の単語や画像を分析し、巨大な統計モデルで表現する必要があります。一方、モデルがトレーニングされると、はるかに小さく、要求の少ない、推論と呼ばれるプロセスを使用できるようになります。
推論
モデルが実際に機能するとき、それを推論と呼びます。この言葉の伝統的な意味は、利用可能な証拠を推論して結論を述べるという意味です。もちろん、これは正確には「推論」ではありませんが、取り込んだデータ内のポイントを統計的に結び付け、実際に次のポイントを予測します。たとえば、「次のシーケンスを完了してください: 赤、オレンジ、黄色...」と言うと、これらの単語が取り込んだリストの先頭、つまり虹の色に対応していることがわかり、一致するまで次の項目を推定します。リスト部分の残りを作成しました。
通常、推論はトレーニングよりも計算コストがはるかに低くなります。カード カタログを組み立てるのではなく、カード カタログを閲覧するようなものだと考えてください。大規模なモデルは依然としてスーパーコンピューターと GPU で実行する必要がありますが、小規模なモデルはスマートフォンやより単純なデバイスで実行できます。
生成型人工知能
誰もが生成 AI について話しています。これは、画像やテキストなどの生の出力を生成する AI モデルを単に指す広義の用語です。要約する AI、再編成する AI、認識する AI などがありますが、実際に何かを生成する AI (「生成」するかどうかは議論の余地があります) が現在特に人気があります。 AI が何かを生成したからといって、それが正しいという意味ではなく、さらには現実を反映しているというわけでもないことに注意してください。ただ、物語や絵のように、求めなければ存在しないのです。
今注目のワード
基本を超えて、2023 年半ばに最も関連性の高い AI 用語をご紹介します。
大規模言語モデル (LLM)
大規模言語モデルは、今日の人工知能の形式として最も影響力があり、広く使用されています。大規模言語モデルは、Web を構成するほぼすべてのテキストと英語の文献のほとんどでトレーニングされています。これらすべてを取り込むと、巨大な基本モデルが作成されます (続きを読む)。 LLM は、ChatGPT、Claude、LLaMa などのツールで証明されているように、自然言語で会話して質問に答え、さまざまなスタイルや種類の文書を模倣することができます。
これらのモデルは間違いなく印象的ですが、それでもパターン認識エンジンであり、質問に答えるとき、そのパターンが現実を反映しているかどうかに関係なく、識別したパターンを完成させようとしていることに留意する必要があります。すぐに説明するように、LLM は答えの中で幻覚を見せることがよくあります。
LLM と ChatGPT について詳しく知りたい場合は、ここをクリックしてください。
基礎モデル
巨大なデータセット上で巨大なモデルをゼロからトレーニングするのは費用がかかり、複雑であるため、必要以上のことは行いたくないでしょう。基本モデルは、スーパーコンピューターの実行を必要とするゼロからの大規模なモデルですが、多くの場合、パラメーターの数を減らすことで、より小さなコンテナーに縮小できます。これらはモデルが処理する必要があるポイントの総数と考えることができ、最近では数百万、数十億、さらには数兆に達する可能性があります。
### 微調整
GPT-4 のような基本モデルはスマートですが、設計上ジェネラリストでもあります。ディケンズからウィトゲンシュタイン、ダンジョンズ アンド ドラゴンズのルールに至るまで、あらゆるものを吸収します。ただし、履歴書に基づいて作成したい場合は、カバーレターを書きます。役に立たない。幸いなことに、特殊なデータセットを使用してモデルに対して追加のトレーニングを行うことで、モデルを微調整することができます。たとえば、たまたま数千件の求人応募がありました。これにより、モデルは、残りのトレーニング データから収集した一般知識を破棄することなく、その領域でユーザーを支援する方法をより深く理解できるようになります。
ヒューマン フィードバックからの強化学習 (RLHF) は、よく耳にする特別な種類の微調整です。LLM と対話する人間からのデータを使用して、コミュニケーション スキルを向上させます。
普及
画像生成はさまざまな方法で行うことができますが、最も成功しているのは拡散です。これは、Stable Diffusion、Midjourney、およびその他の人気のある生成 AI の中心となる技術です。拡散モデルは、元の画像が何も残らなくなるまでデジタル ノイズを追加することで徐々に劣化した画像を表示することでトレーニングされます。これを観察することで、拡散モデルは逆のプロセスを実行することも学習し、純粋なノイズに徐々にディテールを追加して、任意に定義された画像を形成します。グラフィックスではそれを超えた取り組みを始めていますが、このテクノロジーはしっかりしていて比較的理解しやすいため、すぐに廃れてしまうでしょう。
幻覚
当初、これはトレーニング内の一部の画像が無関係な出力に紛れ込むという問題でした。たとえば、トレーニング セット内に犬の画像が多すぎるため、建物が犬で作られているように見えました。現在、AI が幻覚を見るのは、トレーニング セットに十分なデータがなかったり、矛盾したデータが含まれておらず、単に何かをでっち上げているだけであると言われています。
オリジナルまたは派生アートの作成を依頼された AI が幻覚を見ている。たとえば、LLM にヨギ・ベラのスタイルで愛の詩を書くように指示すると、データセットにそのようなものが存在しない場合でも、喜んでそうするでしょう。しかし、事実に基づく回答が必要な場合には、これが問題になる可能性があり、モデルは半分現実、半分幻想的な回答を自信を持って提示します。現在のところ、モデル自体は実際には何が「真」か「偽」かを知らず、可能な限りパターンを完成させようとしているだけであるため、自分でチェックする以外にどれがどれであるかを簡単に判断する方法はありません。
AGI または強力な人工知能
汎用人工知能 (AGI) または強力な人工知能は、実際には明確に定義された概念ではありませんが、最も簡単に説明すると、それは人間と同じことを行うだけでなく、私たちと同じように学習し、改善するのに十分強力な知能であるということです。あなた自身。学習し、これらのアイデアを統合し、学習してより速く成長するというこのサイクルが自己永続的なサイクルとなり、制約や制御ができない超知能システムにつながるのではないかと心配する人もいます。この可能性を防ぐために研究を遅らせたり、制限したりすることを提案する人もいます。
それはひどい考えです。また、『マトリックス』や『ターミネーター』のような映画では、人工知能が制御不能になり、人類を絶滅または奴隷化しようとした場合に何が起こるかを探求してきました。しかし、これらの話は現実に基づいたものではありません。 ChatGPT などで見られるインテリジェンスの外観は印象的ですが、「本物の」インテリジェンスと関連付けられる抽象的な推論や動的なマルチドメインのアクティビティとはほとんど共通点がありません。
将来の発展を予測することはほぼ不可能ですが、AGI を星間宇宙旅行として想像すると役立つかもしれません。私たちは皆、その概念を理解しており、それに向かって取り組んでいるように見えますが、同時に、達成までの道のりはまだ長いです。それ。 AGI と同様に、莫大なリソースと基礎的な科学の進歩が必要となるため、誰もそれを偶然行うことはできません。
AGI について考えるのは楽しいですが、問題を起こす必要はありません。コメンテーターが指摘しているように、AI にはその限界があるにもかかわらず、今日すでに現実の重大な脅威となっているからです。誰もスカイネットを望んでいませんが、実害を与えるのに核武装した超諜報機関は必要ありません。今日、人々は職を失い、詐欺に遭っています。これらの問題を解決できない場合、T-1000 と戦うチャンスはありますか?
人工知能のトッププレーヤー
OpenAI
AI でよく知られた名前があるとすれば、それは OpenAI です。 OpenAI は、その名前が示すように、研究を実施し、その結果を多かれ少なかれ一般に公開することを目的とした組織です。その後、API やアプリを通じて ChatGPT などの高度な言語モデルへのアクセスを提供する、より伝統的な営利企業に再編されました。この組織を率いているのは、テクノ億万長者であるサム・アルトマンだが、彼は人工知能の潜在的なリスクについて警鐘を鳴らしている。 OpenAI は LLM 分野のリーダーとして知られていますが、他の分野でも研究を行っています。
マイクロソフト
ご想像のとおり、マイクロソフトは AI 研究にそれなりの努力をしてきましたが、他の企業と同様に、その実験を主要な製品に応用することには多かれ少なかれ失敗していました。同社の最も賢明な行動は、OpenAI への初期投資であり、これにより同社との独占的な長期パートナーシップが生まれ、現在は Bing 会話型エージェントを強化しています。同社自身の貢献は小さく、直接的に応用できるものではありませんが、同社にはかなりの研究力があります。
### グーグル
ムーンショットで知られる Google は、その研究者が今日の AI 爆発に直接つながるテクノロジーであるトランスフォーマーを発明したにもかかわらず、どういうわけか AI の機会を逃しました。現在、同社は独自のLLMやその他のエージェントを開発しようとしているが、過去10年のほとんどをAI「仮想アシスタント」という時代遅れの概念を推進することに費やしてきたため、明らかに巻き返しを図っているところだ。 CEOのサンダー・ピチャイ氏は、同社は検索と生産性においてAIに断固として遅れをとっていると繰り返し述べた。
人間的
OpenAI がオープン性から離脱した後、ダリオ・アモデイとダニエラ・アモデイはオープンで倫理的に配慮した AI 研究組織の役割を果たすことを目的として、OpenAI を離れて Anthropic を設立しました。たとえ彼らのモデル (Claude など) がまだそこまで人気も知名度も高くないとしても、彼らは手元にある現金の量を考えると、OpenAI の深刻な競争相手です。
### 安定
物議を醸しているが避けられない安定性は、インターネット上のあらゆるものを収集し、それを実行するハードウェアを所有している場合に、トレーニングする生成 AI モデルを無料で利用できるようにする、「何でも好きなもの」AI 実装のオープンソース ジャンルを代表しています。これは、「情報は自由になりたい」という哲学に非常によく適合しますが、同時に、ポルノ画像の生成や知的財産の同意なしでの使用(場合によっては同時に)など、倫理的に疑わしいプロジェクトも加速します。
イーロン・マスク
マスク氏も例外ではなく、AIの暴走に対する懸念を率直に語ったほか、OpenAIへの初期の貢献が彼が気に入らない方向に進んだことを受けて、少々苦い思いをした。マスク氏はこのテーマの専門家ではないが、例によって彼のふざけた行動やコメントは多くの話題を呼び(彼は前述の「AI一時停止」書簡に署名している)、彼自身の研究での存在感を確立しようとしている。