OpenAIは最新の研究論文を発表し、大型言語モデル(LLM)がGPT-5のようにかなり進歩しているとはいえ、「AIの幻覚」(Hallucinations)は依然として根本的な問題であり、完全には排除できないと明言しました。研究チームは実験を通じて、特定の質問に対するモデルの回答が自信満々でありながら全く間違った答えを出すことを明らかにし、新たな「評価メカニズム」の改革案を提案し、モデルの「乱推測」の状況を減少させることを望んでいます。研究者はAIモデルを使用して様々な問題をテストしましたが、回答はすべて間違っていました。研究者はある広く使用されているチャットボットに、ある博士論文の題名を尋ねたところ、連続して3つの答えがすべて間違っていた。その後、彼の誕生日を尋ねると、ボットは同様に3つの異なる日付を提供し、結果はやはりすべて間違っていた。研究によると、AIモデルは、一部のデータにおいて「非常に珍しい情報」に直面した場合、自信満々に答えを出すが、全く間違った答えを出すことがある。事前学習メカニズムは「言語の表面」しか学習せず、事実の正確性を理解しない。研究によると、モデルの事前訓練プロセスは、大量のテキストを通じて「次の単語を予測する」ことによって行われますが、データには「真偽」のラベルは付けられていません。言い換えれば、モデルは言語の表面的な部分だけを学んでおり、事実の正確性は学んでいないのです。文字や括弧のような規則性の高いものは、モデルの規模が大きくなるにつれて、エラーが徐々に消えていきます。しかし「誰かの誕生日」のようなランダム性の高い情報は、言語モデルでは推測できないため、幻覚を引き起こしやすい。AIモデルは「適当に推測する」ことを奨励されており、モデル評価モードを修正する必要があります。研究は評価方法の大改変を強調しており、重要なのは単純に「正しいか間違っているか」を見ることではなく、非常に自信を持って間違った答えを出すことに対して厳しく罰し、AIが「わからない」と正直に言うことを奨励することです。言い換えれば、AIが適当な答えを言うことは、知らないと認めることよりもむしろ減点されるべきです。逆に、もしそれが「不確定」と答えた場合も、いくつかのポイントを獲得すべきであり、直接ゼロ点とすべきではありません。また、これは単にいくつかのテストを追加するだけではなく、現在の正答率だけを見る評価制度を根本的に覆す必要があります。評価方法を修正しなければ、AIはただ無秩序に推測し続けるだけです。研究の最後では、幻覚を減少させるためには、評価システムから手をつけ、実際に「慎重さと誠実さ」を促すテスト方法を確立する必要があると述べています。AIに「毎回正解する」ことを求めるよりも、AIが「わからない」と受け入れられるゲームルールを確立することがより重要です。(2025 最新の5大主流LLM全解析、料金、アプリケーション、セキュリティを一度で理解)この記事は OpenAI の最新研究:なぜ GPT-5 と他の LLM はまだ無意味なことを言うのか が最初に 鏈新聞 ABMedia に掲載されました。
OpenAI の最新研究:なぜ GPT-5 と他の LLM はまだホラを吹くのか
OpenAIは最新の研究論文を発表し、大型言語モデル(LLM)がGPT-5のようにかなり進歩しているとはいえ、「AIの幻覚」(Hallucinations)は依然として根本的な問題であり、完全には排除できないと明言しました。研究チームは実験を通じて、特定の質問に対するモデルの回答が自信満々でありながら全く間違った答えを出すことを明らかにし、新たな「評価メカニズム」の改革案を提案し、モデルの「乱推測」の状況を減少させることを望んでいます。
研究者はAIモデルを使用して様々な問題をテストしましたが、回答はすべて間違っていました。
研究者はある広く使用されているチャットボットに、ある博士論文の題名を尋ねたところ、連続して3つの答えがすべて間違っていた。その後、彼の誕生日を尋ねると、ボットは同様に3つの異なる日付を提供し、結果はやはりすべて間違っていた。
研究によると、AIモデルは、一部のデータにおいて「非常に珍しい情報」に直面した場合、自信満々に答えを出すが、全く間違った答えを出すことがある。
事前学習メカニズムは「言語の表面」しか学習せず、事実の正確性を理解しない。
研究によると、モデルの事前訓練プロセスは、大量のテキストを通じて「次の単語を予測する」ことによって行われますが、データには「真偽」のラベルは付けられていません。言い換えれば、モデルは言語の表面的な部分だけを学んでおり、事実の正確性は学んでいないのです。
文字や括弧のような規則性の高いものは、モデルの規模が大きくなるにつれて、エラーが徐々に消えていきます。
しかし「誰かの誕生日」のようなランダム性の高い情報は、言語モデルでは推測できないため、幻覚を引き起こしやすい。
AIモデルは「適当に推測する」ことを奨励されており、モデル評価モードを修正する必要があります。
研究は評価方法の大改変を強調しており、重要なのは単純に「正しいか間違っているか」を見ることではなく、非常に自信を持って間違った答えを出すことに対して厳しく罰し、AIが「わからない」と正直に言うことを奨励することです。言い換えれば、AIが適当な答えを言うことは、知らないと認めることよりもむしろ減点されるべきです。
逆に、もしそれが「不確定」と答えた場合も、いくつかのポイントを獲得すべきであり、直接ゼロ点とすべきではありません。また、これは単にいくつかのテストを追加するだけではなく、現在の正答率だけを見る評価制度を根本的に覆す必要があります。評価方法を修正しなければ、AIはただ無秩序に推測し続けるだけです。
研究の最後では、幻覚を減少させるためには、評価システムから手をつけ、実際に「慎重さと誠実さ」を促すテスト方法を確立する必要があると述べています。AIに「毎回正解する」ことを求めるよりも、AIが「わからない」と受け入れられるゲームルールを確立することがより重要です。
(2025 最新の5大主流LLM全解析、料金、アプリケーション、セキュリティを一度で理解)
この記事は OpenAI の最新研究:なぜ GPT-5 と他の LLM はまだ無意味なことを言うのか が最初に 鏈新聞 ABMedia に掲載されました。