GPT-4V醫學執照考試成績超過大部分醫學生，AI加入臨床還有多遠？

Question

文章來源：機器之心![](https://appserversrc.8btc.cn/886188AC950B2D808EFEBF7B16AE4F27/1700550751/FuCgxMV3q1B3EwEtwqvnyfD9D1rp.png) *圖片來源：由無界 AI生成*人工智慧（AI）在醫學影像診斷方面的應用已經有了長足的進步。 然而，在未經嚴格測試的情況下，醫生往往難以採信人工智慧的診斷結果。 對於他們來說，理解人工智慧根據醫學影像給出的判別，需要增加額外的認知成本。為了增強醫生對輔助醫療的人工智慧之間的信任，讓 AI 通過一個醫生必須通過的資格考試或許是一個有效的方法。 醫學執照考試是用來評估醫生專業知識和技能的標準化考試，是衡量一個醫生是否有能力安全有效地護理患者的基礎。在最新的研究中，來自麻塞諸塞大學、復旦大學的跨學科研究人員團隊利用生成式多模態預訓練模型 GPT-4V （ision） 突破了人工智慧在醫學問答中的最佳水準。 研究測試了 GPT-4V 回答美國醫學執照考試題的能力，特別是題目包含圖像的考題 —— 這對醫療人工智慧系統來說一直以來都是一項挑戰。該研究表明，GPT-4V 不僅超越了 GPT-4 和 ChatGPT 等前輩，還超越了大部分醫學生，為人工智慧能夠作為輔助診斷和臨床決策的工具提供了理論上的可能。 該研究分析了 GPT-4V 在不同醫學子領域的性能。同時，該研究還指出了醫療人工智慧在一致解釋方面的局限性，強調了人機協作在未來醫療診斷中的重要性。![](https://appserversrc.8btc.cn/FgMNHEnuqUrKtwGDNu5nw9UNLgU7) 論文連結：## **測試問題收集**該研究中，用來測試人工智慧醫學執照考試的題型為涉及不同醫學領域、難度各異的帶有圖像的選擇題。 論文作者們選擇了來自美國醫學執照考試（USMLE）、醫學生考試題庫（AMBOSS）和診斷放射學資格核心考試（DRQCE）的三套選擇題，共計 226 道題（28 個醫學領域），來測試 GPT-4V 的準確性。其中AMBOSS和DRQCE的數據未公開，需要用戶註冊後才能獲取。 AMBOSS 數據集中的每個問題都設定有對應的難度。 問題按難易程度分五級，1、2、3、4 和 5 級分別代表學生第一次作答時最容易答對的 20%、20%-50%、50%-80%、80%-95% 和 95%-100% 的問題。此外，作者們還收集了醫療專業人士的偏好，用以評估 GPT-4V 的解釋是否違背醫學常識。 當 GPT-4V 做錯的時候，作者們還收集了來自醫療專業人士的反饋，用來改善 GPT-4V。![](https://appserversrc.8btc.cn/FvAVumybr5qcP8lO1FPS6Ke8hGzJ) *用美國醫學執照考試（USMLE）中包含圖像的考題測試 GPT-4V。 *## **準確性**結果顯示，GPT-4V 在帶有圖像的醫學執照考試題上表現出了很高的準確率，分別在 USMLE、AMBOSS 和 DRQCE 上達到了 86.2%、62.0% 和 73.1%，遠遠超過了 ChatGPT 和 GPT-4。 與準備考試的學生相比，GPT-4V 的大致排名能達到前 20-30% 的水準。而在 2022 年，美國醫學執照考試大約有前 90% 的考生通過了考試，這意味著 GPT-4V 想要獲得通過，也相對較為輕鬆。 GPT-4V 的準確率反映了它掌握大量生物醫學和臨床科學知識，也能夠解決醫患相處中遇到的問題。 這些都是進入醫學臨床實踐的必備技能。![](https://appserversrc.8btc.cn/FgtW6rXtZVbDNHr1JNPjixhNkk18) *GPT-4V在美國醫學執照考試（USMLE）的測試表現遠遠超過了 ChatGPT 和 GPT-4。 *在使用提示和不使用提示的情況下，GPT-4V 在AMBOSS的準確率分別為86%和63%。 隨著問題難度的增加，不使用提示時 GPT-4V 的表現呈現下降趨勢（卡方檢驗，顯著性水準 0.05）。 然而，當使用提示提問時，這種下降趨勢並未明顯觀察到。 這表明，來自醫療專業人士的提示可以很好的説明 GPT-4 做出正確的決策。![](https://appserversrc.8btc.cn/FsGpb018FKWoCnYBNcMzpNVbmHH9) *GPT-4V 和學生在不同難度 AMBOSS 考試上的準確率*## **解釋性**在解釋品質方面，作者們發現，當 GPT-4V 回答正確時，醫療專業人士對 GPT-4V 給出的解釋與專家給出的解釋的偏好相差不大。 這說明 GPT-4V 的解釋具有可信度和專業性。 作者們還發現，在 GPT-4V 的解釋中，有超過 80% 的回答包含了對題目中圖像和文本的解讀，這說明 GPT-4V 能夠利用多模態的數據來生成回答。然而，當 GPT-4V 回答錯誤時，它的解釋中也存在一些嚴重的問題，例如圖像誤解（Image misunderstanding）、文本幻覺（Text hallucination）、推理錯誤（Reasoning error）等，這些問題可能會影響 GPT-4V 的可靠性和可解釋性。![](https://appserversrc.8btc.cn/FhOHzH7ZTk9pcABiAzOYf8C87o4j) *針對每道考試題，醫療專業人員從專家生成的解釋和 GPT-4V 生成的解釋中選擇偏好。 考試分為 Step1， Step2CK， Step3 共 3 個階段。 每個階段抽取 50 道題目進行測試。 *作者發現許多 GPT-4V 回答錯誤的解釋是圖像誤解。 在 55 個錯誤回答中，有 42 個回答（76.3%）是由圖像理解錯誤所導致的。 相比之下，只有10個回答（18.2%）錯誤歸因於文本幻覺。針對圖像誤解，作者建議使用以圖像或者文字為形式的提示。 例如，醫生可以用箭頭指示圖中重要的位置，或者用一兩句話來解釋圖像的意義來提示模型。 當醫生使用文字提示的時候，就有 40.5% （17/42 個） 之前錯誤的回答被 GPT-4V 改正了。## **輔助診斷的潛力**作者還展示了使用 GPT-4V 作為影像診斷輔助工具的可能性。 基於一個高血壓病人的病例報告，醫生對 GPT-4V 進行提問。 定性分析表明，GPT-4V 能夠根據 CT 掃描圖像、化驗單和病人癥狀等其他資訊，提供鑒別診斷和後續檢查的建議。 詳細分析請參考原論文。## **結論與展望**作者們認為，GPT-4V 在帶有圖像的醫學執照考試題上展現了非凡的準確率，在臨床決策支援方面，GPT-4V 具備無窮的潛力。 然而，GPT-4V 還需要改進它的解釋品質和可靠性，才能真正適用於臨床場景。論文中嘗試使用提示來改進 GPT-4V 的判斷，取得了不錯的效果，這為未來的研究提出了一個有希望的方向：開發更精細的人類人工智慧協作系統，使得其成為臨床環境中更可靠的工具。 隨著技術的不斷進步和研究不斷深入，我們有理由相信，AI 將在提高醫療品質、減輕醫生工作負擔和促進醫療服務普及化方面繼續發揮重要作用。