記事のソース: Heart of the Machine
画像出典:Unbounded AIによって生成
医用画像診断における人工知能(AI)の応用は、長い道のりを歩んできました。 しかし、厳密な検査を行わないと、医師がAIの診断結果を信頼することは難しい場合が多いです。 彼らにとって、医用画像に基づいてAIが下した判断を理解するには、追加の認知コストが必要です。
救急医療における医師とAIの信頼関係を高めるためには、医師が合格しなければならない資格試験にAIを合格させるのが有効な方法かもしれません。 医師免許試験は、医師の専門知識と技術を評価するために使用される標準化されたテストであり、医師が患者を安全かつ効果的にケアする能力を測定するための基礎です。
最新の研究では、マサチューセッツ大学と復旦大学の研究者からなる学際的なチームが、生成型マルチモーダル事前学習済みモデルであるGPT-4V(アイシオン)を使用して、医療Q&Aにおける最高レベルの人工知能を突破しました。 この研究では、GPT-4Vが米国の医師免許試験の問題、特に医療用AIシステムにとって長年の課題であった画像を含む問題に回答する能力をテストしました。
この研究は、GPT-4VがGPT-4やChatGPTなどの先行者を凌駕するだけでなく、ほとんどの医学生を凌駕していることを示しており、AIを診断や臨床上の意思決定を支援するツールとして使用できる理論的な可能性を提供します。 この研究では、さまざまな医療サブフィールドにおけるGPT-4Vの性能を分析しました。
同時に、この研究では、一貫した解釈という点で医療AIの限界も指摘されており、将来の医療診断における人間と機械の協働の重要性が強調されています。
論文リンク集:
本研究では、AI医師免許試験の試験に用いる問題の種類は、異なる医療分野を含み、難易度の異なる画像による多肢選択問題である。 著者らは、GPT-4Vの精度をテストするために、米国医師免許試験(USMLE)、医学生試験質問バンク(AMBOSS)、および診断放射線学資格コア試験(DRQCE)から3セットの多肢選択問題を選択し、合計226の質問(28の医療分野)を選択しました。
AMBOSSとDRQCEのデータは公開されておらず、入手には登録が必要です。 AMBOSSデータセットの各質問には、一連の難易度があります。 質問は難易度の5段階で評価され、1、2、3、4、5年生は、生徒が最初に正解する可能性が最も高い質問の20%、20%-50%、50%-80%、80%-95%、95%-100%を表します。
さらに、著者らは、GPT-4Vの解釈が医学的常識に反しているかどうかを評価するために、医療専門家の好みを収集しました。 GPT-4Vが間違っていた場合、著者らはGPT-4Vを改善するために医療専門家からのフィードバックも収集しました。
*GPT-4Vは、画像を含む米国医師免許試験(USMLE)の問題でテストされています。 *
その結果、GPT-4Vは画像付きの医師免許試験問題で高い正解率を示し、USMLE、AMBOSS、DRQCEでそれぞれ86.2%、62.0%、73.1%に達し、ChatGPTとGPT-4をはるかに上回った。 GPT-4Vは、試験の準備をしている学生と比較して、おおよそ上位20〜30%にランクインすることができます。
そして2022年には、米国の医師免許試験の上位90%の受験者の約90%が合格しており、GPT-4Vは比較的簡単に合格できることになります。 GPT-4Vの精度は、生物医学および臨床科学の膨大な知識と、医師と患者の関係で遭遇する問題を解決する能力を反映しています。 これらはすべて、医療の臨床現場に入るために不可欠なスキルです。
*GPT-4Vは、米国医師免許試験(USMLE)でChatGPTやGPT-4をはるかに上回っています。 *
GPT-4Vは、ヒントの有無にかかわらず、AMBOSSでそれぞれ86%と63%の精度でした。 問題の難易度が上がるにつれて、GPT-4Vのパフォーマンスは、プロンプトを使用しない場合(カイ二乗検定、有意水準0.05)で低下傾向を示しました。 ただし、この減少傾向は、プロンプトを使用して質問する場合には顕著に観察されません。 これは、医療専門家からのヒントが、GPT-4が正しい判断を下すのに役立つ優れた方法であることを示唆しています。
GPT-4Vと難易度の異なるAMBOSS試験での学生の精度
解釈の質に関しては、GPT-4Vが正解した場合、医療従事者の好みはGPT-4Vの解釈と大差ないことが分かった。 これは、GPT-4Vの解釈が信頼でき、プロフェッショナルであることを示しています。 また、GPT-4Vの説明の80%以上が質問に画像やテキストの解釈を含んでおり、GPT-4Vがマルチモーダルデータを使用して回答を生成できたことを示唆しています。
しかし、GPT-4Vが間違った答えをすると、画像の誤解、テキストの幻覚、推論の誤りなど、その解釈に深刻な問題があり、GPT-4Vの信頼性や解釈可能性に影響を与える可能性があります。
※各試験問題では、専門家による説明とGPT-4Vによる説明から好みを選択します。 試験は、Step1、Step2CK、Step3の3つのステージに分かれています。 テストの各ステージで50の質問が選択されます。 *
その結果、GPT-4Vの不正解の説明の多くが画像の誤解であることが分かった。 55件の不正解のうち、42件(76.3%)が画像の誤解によるものでした。 対照的に、テキストによる幻覚と誤って判断された回答はわずか10件(18.2%)であった。
画像の誤解については、画像やテキストの形でプロンプトを使用することを著者は推奨しています。 たとえば、医師は矢印を使用して図内の重要な場所を示したり、画像の意味を説明するために 1 つか 2 つの文を使用してモデルに促したりできます。 医師がテキストプロンプトを使用した場合、以前の不正解の40.5%(17/42)がGPT-4Vによって修正されました。
また、著者らは、GPT-4Vを画像診断補助として利用できる可能性も示している。 高血圧患者の症例報告に基づいて、医師はGPT-4Vについて質問します。 定性分析の結果、GPT-4Vは、CTスキャン画像、臨床検査シート、患者の症状など、他の情報に基づいて鑑別診断やフォローアップ検査の推奨を提供できることが示されています。 詳細な分析については、元の論文を参照してください。
著者らによると、GPT-4Vは医師免許試験の質問に画像付きで並外れた精度を示しており、GPT-4Vは臨床的意思決定支援に無限の可能性を秘めているとのことです。 しかし、GPT-4Vが臨床シナリオに真に適用できるようになるには、その解釈品質と信頼性を向上させる必要があります。
GPT-4Vの判断を改善するためにプロンプトを使用するという論文の試みは良い結果をもたらし、臨床現場でより信頼性の高いツールとして使用できる、より高度な人間とAIのコラボレーションシステムの開発という将来の研究の有望な方向性を示唆しています。 テクノロジーが進歩し、研究が深化し続けるにつれて、AIはケアの質の向上、医師の作業負荷の軽減、医療サービスへの普遍的なアクセスの促進において重要な役割を果たし続けると信じる理由があります。
20k 人気度
41k 人気度
33k 人気度
22k 人気度
15k 人気度
GPT-4V医師免許試験のスコアはほとんどの医学生を上回っていますが、AIはどこまで臨床現場に追加されるのでしょうか?
記事のソース: Heart of the Machine
医用画像診断における人工知能(AI)の応用は、長い道のりを歩んできました。 しかし、厳密な検査を行わないと、医師がAIの診断結果を信頼することは難しい場合が多いです。 彼らにとって、医用画像に基づいてAIが下した判断を理解するには、追加の認知コストが必要です。
救急医療における医師とAIの信頼関係を高めるためには、医師が合格しなければならない資格試験にAIを合格させるのが有効な方法かもしれません。 医師免許試験は、医師の専門知識と技術を評価するために使用される標準化されたテストであり、医師が患者を安全かつ効果的にケアする能力を測定するための基礎です。
最新の研究では、マサチューセッツ大学と復旦大学の研究者からなる学際的なチームが、生成型マルチモーダル事前学習済みモデルであるGPT-4V(アイシオン)を使用して、医療Q&Aにおける最高レベルの人工知能を突破しました。 この研究では、GPT-4Vが米国の医師免許試験の問題、特に医療用AIシステムにとって長年の課題であった画像を含む問題に回答する能力をテストしました。
この研究は、GPT-4VがGPT-4やChatGPTなどの先行者を凌駕するだけでなく、ほとんどの医学生を凌駕していることを示しており、AIを診断や臨床上の意思決定を支援するツールとして使用できる理論的な可能性を提供します。 この研究では、さまざまな医療サブフィールドにおけるGPT-4Vの性能を分析しました。
同時に、この研究では、一貫した解釈という点で医療AIの限界も指摘されており、将来の医療診断における人間と機械の協働の重要性が強調されています。
テスト問題集
本研究では、AI医師免許試験の試験に用いる問題の種類は、異なる医療分野を含み、難易度の異なる画像による多肢選択問題である。 著者らは、GPT-4Vの精度をテストするために、米国医師免許試験(USMLE)、医学生試験質問バンク(AMBOSS)、および診断放射線学資格コア試験(DRQCE)から3セットの多肢選択問題を選択し、合計226の質問(28の医療分野)を選択しました。
AMBOSSとDRQCEのデータは公開されておらず、入手には登録が必要です。 AMBOSSデータセットの各質問には、一連の難易度があります。 質問は難易度の5段階で評価され、1、2、3、4、5年生は、生徒が最初に正解する可能性が最も高い質問の20%、20%-50%、50%-80%、80%-95%、95%-100%を表します。
さらに、著者らは、GPT-4Vの解釈が医学的常識に反しているかどうかを評価するために、医療専門家の好みを収集しました。 GPT-4Vが間違っていた場合、著者らはGPT-4Vを改善するために医療専門家からのフィードバックも収集しました。
精度
その結果、GPT-4Vは画像付きの医師免許試験問題で高い正解率を示し、USMLE、AMBOSS、DRQCEでそれぞれ86.2%、62.0%、73.1%に達し、ChatGPTとGPT-4をはるかに上回った。 GPT-4Vは、試験の準備をしている学生と比較して、おおよそ上位20〜30%にランクインすることができます。
そして2022年には、米国の医師免許試験の上位90%の受験者の約90%が合格しており、GPT-4Vは比較的簡単に合格できることになります。 GPT-4Vの精度は、生物医学および臨床科学の膨大な知識と、医師と患者の関係で遭遇する問題を解決する能力を反映しています。 これらはすべて、医療の臨床現場に入るために不可欠なスキルです。
GPT-4Vは、ヒントの有無にかかわらず、AMBOSSでそれぞれ86%と63%の精度でした。 問題の難易度が上がるにつれて、GPT-4Vのパフォーマンスは、プロンプトを使用しない場合(カイ二乗検定、有意水準0.05)で低下傾向を示しました。 ただし、この減少傾向は、プロンプトを使用して質問する場合には顕著に観察されません。 これは、医療専門家からのヒントが、GPT-4が正しい判断を下すのに役立つ優れた方法であることを示唆しています。
説明的性質
解釈の質に関しては、GPT-4Vが正解した場合、医療従事者の好みはGPT-4Vの解釈と大差ないことが分かった。 これは、GPT-4Vの解釈が信頼でき、プロフェッショナルであることを示しています。 また、GPT-4Vの説明の80%以上が質問に画像やテキストの解釈を含んでおり、GPT-4Vがマルチモーダルデータを使用して回答を生成できたことを示唆しています。
しかし、GPT-4Vが間違った答えをすると、画像の誤解、テキストの幻覚、推論の誤りなど、その解釈に深刻な問題があり、GPT-4Vの信頼性や解釈可能性に影響を与える可能性があります。
その結果、GPT-4Vの不正解の説明の多くが画像の誤解であることが分かった。 55件の不正解のうち、42件(76.3%)が画像の誤解によるものでした。 対照的に、テキストによる幻覚と誤って判断された回答はわずか10件(18.2%)であった。
画像の誤解については、画像やテキストの形でプロンプトを使用することを著者は推奨しています。 たとえば、医師は矢印を使用して図内の重要な場所を示したり、画像の意味を説明するために 1 つか 2 つの文を使用してモデルに促したりできます。 医師がテキストプロンプトを使用した場合、以前の不正解の40.5%(17/42)がGPT-4Vによって修正されました。
補助診断の可能性
また、著者らは、GPT-4Vを画像診断補助として利用できる可能性も示している。 高血圧患者の症例報告に基づいて、医師はGPT-4Vについて質問します。 定性分析の結果、GPT-4Vは、CTスキャン画像、臨床検査シート、患者の症状など、他の情報に基づいて鑑別診断やフォローアップ検査の推奨を提供できることが示されています。 詳細な分析については、元の論文を参照してください。
結論と展望
著者らによると、GPT-4Vは医師免許試験の質問に画像付きで並外れた精度を示しており、GPT-4Vは臨床的意思決定支援に無限の可能性を秘めているとのことです。 しかし、GPT-4Vが臨床シナリオに真に適用できるようになるには、その解釈品質と信頼性を向上させる必要があります。
GPT-4Vの判断を改善するためにプロンプトを使用するという論文の試みは良い結果をもたらし、臨床現場でより信頼性の高いツールとして使用できる、より高度な人間とAIのコラボレーションシステムの開発という将来の研究の有望な方向性を示唆しています。 テクノロジーが進歩し、研究が深化し続けるにつれて、AIはケアの質の向上、医師の作業負荷の軽減、医療サービスへの普遍的なアクセスの促進において重要な役割を果たし続けると信じる理由があります。