GPT-4V Tıbbi Lisanslama Sınavı puanları çoğu tıp öğrencisinden daha iyi performans gösteriyor, yapay zeka klinik uygulamaya ne kadar eklenecek?

Makale kaynağı: Makinenin Kalbi

Görüntü kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Tıbbi görüntüleme teşhisinde yapay zekanın (AI) uygulanması uzun bir yol kat etti. Bununla birlikte, titiz testler olmadan, doktorların yapay zekanın teşhis sonuçlarına güvenmesi genellikle zordur. Onlar için, yapay zeka tarafından tıbbi görüntülere dayalı olarak verilen kararları anlamak, ek bir bilişsel maliyet gerektirir.

Paramedikte doktorlar ve yapay zeka arasındaki güveni artırmak için, yapay zekanın doktorların geçmesi gereken bir yeterlilik sınavını geçmesini sağlamanın etkili bir yolu olabilir. Tıbbi Ruhsatlandırma Sınavı, doktorların mesleki bilgi ve becerilerini değerlendirmek için kullanılan standart bir testtir ve bir doktorun hastalara güvenli ve etkili bir şekilde bakma yeteneğini ölçmenin temelini oluşturur.

En son çalışmada, Massachusetts Üniversitesi ve Fudan Üniversitesi'nden disiplinler arası bir araştırma ekibi, üretken çok modlu önceden eğitilmiş bir model olan GPT-4V'yi (ision) kullanarak tıbbi Soru-Cevap'ta en iyi yapay zeka seviyesini kırdı. Çalışma, GPT-4V'nin ABD Tıbbi Lisanslama Sınavı'ndaki soruları, özellikle de görüntü içeren soruları yanıtlama yeteneğini test etti - tıbbi yapay zeka sistemleri için uzun süredir bir zorluk.

Çalışma, GPT-4V'nin yalnızca GPT-4 ve ChatGPT gibi öncülleri geride bırakmakla kalmayıp, aynı zamanda çoğu tıp öğrencisini de geride bırakarak, yapay zekanın teşhis ve klinik karar vermeye yardımcı olacak bir araç olarak kullanılabileceğine dair teorik bir olasılık sağladığını gösteriyor. Çalışma, GPT-4V'nin farklı tıbbi alt alanlardaki performansını analiz etti.

Aynı zamanda çalışma, tıbbi yapay zekanın tutarlı yorumlama açısından sınırlamalarına da işaret ederek, gelecekteki tıbbi teşhiste insan-makine işbirliğinin önemini vurguluyor.

Kağıt Bağlantıları:

Test Sorusu Koleksiyonu

Bu çalışmada, yapay zeka tıbbi lisans sınavını test etmek için kullanılan soru tipleri, farklı tıbbi alanları içeren ve zorluk derecesi değişen resimli çoktan seçmeli sorulardır. Yazarlar, GPT-4V'nin doğruluğunu test etmek için Amerika Birleşik Devletleri Tıbbi Lisanslama Sınavı (USMLE), Tıp Öğrencisi Sınavı Soru Bankası (AMBOSS) ve Tanısal Radyoloji Yeterlilik Çekirdek Sınavı'ndan (DRQCE) toplam 226 sorudan (28 tıbbi alan) oluşan üç set çoktan seçmeli soru seçtiler.

AMBOSS VE DRQCE'NIN VERILERI HERKESE AÇIK DEĞILDIR VE KULLANICILARIN BUNLARI ELDE ETMEK IÇIN KAYDOLMALARI GEREKIR. AMBOSS veri setindeki her sorunun bir dizi zorluğu vardır. Sorular, 1, 2, 3, 4 ve 5. sınıflar sırasıyla %20, %20-%50, %50-%80, %80-%95 ve %95-%100'ü temsil eden beş zorluk ölçeğinde derecelendirilir.

Ayrıca yazarlar, GPT-4V'nin yorumunun tıbbi sağduyuya meydan okuyup okumadığını değerlendirmek için tıp uzmanlarının tercihlerini topladı. GPT-4V yanlış anladığında, yazarlar GPT-4V'yi geliştirmek için tıp uzmanlarından da geri bildirim topladılar.

*GPT-4V, Amerika Birleşik Devletleri Tıbbi Lisanslama Sınavı'ndan (USMLE) alınan ve görüntü içeren sorularla test edilmiştir. *

Doğruluk

Sonuçlar, GPT-4V'nin resimli tıbbi lisans sınav sorularında yüksek doğruluk oranları gösterdiğini ve USMLE, AMBOSS ve DRQCE'de sırasıyla %86,2, %62,0 ve %73,1'e ulaşarak ChatGPT ve GPT-4'ü çok geride bıraktığını gösterdi. GPT-4V, sınava hazırlanan öğrencilere kıyasla kabaca ilk %20-30'da yer alabilir.

Ve 2022'de, ABD tıbbi lisans sınavındaki adayların ilk %90'ının yaklaşık %90'ı geçti, bu da GPT-4V'nin nispeten kolay bir geçiş süresine sahip olacağı anlamına geliyor. GPT-4V'nin doğruluğu, biyomedikal ve klinik bilimler konusundaki engin bilgisinin yanı sıra doktorlar ve hastalar arasındaki ilişkide karşılaşılan sorunları çözme yeteneğini yansıtır. Bunların hepsi tıbbın klinik pratiğine girmek için gerekli becerilerdir.

*GPT-4V, ABD Tıbbi Lisanslama Sınavında (USMLE) ChatGPT ve GPT-4'ten çok daha iyi performans gösterdi. *

GPT-4V, AMBOSS'TA IPUÇLARI OLAN VE OLMAYAN SIRASIYLA %86 VE %63 DOĞRUYDU. Sorunun zorluğu arttıkça, GPT-4V'nin performansı istemler kullanılmadığında düşüş eğilimi gösterdi (ki-kare testi, anlamlılık düzeyi 0.05). Bununla birlikte, bu düşüş eğilimi, istemleri kullanarak soru sorarken belirgin bir şekilde gözlenmemektedir. Bu, tıp uzmanlarından gelen ipuçlarının GPT-4'ün doğru kararları vermesine yardımcı olmanın harika bir yolu olabileceğini gösteriyor.

GPT-4V ve farklı zorluk derecelerindeki AMBOSS sınavlarında öğrenci doğruluğu

Açıklayıcı Doğa

Yorumlama kalitesi açısından yazarlar, GPT-4V doğru yanıt verdiğinde, tıp uzmanlarının GPT-4V tarafından verilen yorumu tercih etmesinin uzmanlar tarafından verilenden çok farklı olmadığını bulmuşlardır. Bu, GPT-4V'nin yorumunun güvenilir ve profesyonel olduğunu gösteriyor. Yazarlar ayrıca GPT-4V'nin açıklamalarının %80'inden fazlasının sorulardaki resim ve metin yorumlarını içerdiğini buldular, bu da GPT-4V'nin yanıt oluşturmak için çok modlu verileri kullanabildiğini öne sürdü.

Bununla birlikte, GPT-4V yanlış yanıt verdiğinde, yorumlanmasında GPT-4V'nin güvenilirliğini ve yorumlanabilirliğini etkileyebilecek görüntü yanlış anlaşılması, metin halüsinasyonu, akıl yürütme hatası vb. gibi bazı ciddi sorunlar da vardır.

*Tıp uzmanları, her sınav sorusu için uzman tarafından oluşturulan açıklamalar ve GPT-4V tarafından oluşturulan açıklamalar arasından bir tercih seçer. Sınav 3 aşamaya ayrılmıştır: Adım 1, Adım 2CK ve Adım 3. Test için her aşama için 50 soru seçilir. *

Yazarlar, GPT-4V'nin yanlış yanıtlarına ilişkin açıklamaların çoğunun görüntü yanlış anlamaları olduğunu buldular. 55 yanlış yanıtın 42'si (%76.3) görüntü yanlış anlamalarından kaynaklandı. Buna karşılık, sadece 10 yanıt (% 18.2) yanlış bir şekilde metinsel halüsinasyonlara atfedildi.

Görüntü yanlış anlamaları için yazar, istemleri resim veya metin biçiminde kullanmanızı önerir. Örneğin, bir doktor, bir diyagramdaki önemli bir konumu belirtmek için bir ok veya modeli yönlendirmek için bir görüntünün anlamını açıklamak için bir veya iki cümle kullanabilir. Doktorlar metin istemlerini kullandığında, önceki yanlış cevapların %40,5'i (17/42) GPT-4V tarafından düzeltildi.

Yardımcı Tanı Potansiyeli

Yazarlar ayrıca GPT-4V'yi bir görüntüleme tanı yardımcısı olarak kullanma olasılığını da göstermektedir. Hipertansif bir hastanın vaka raporuna dayanarak, doktor GPT-4V hakkında sorular sorar. Nitel analiz, GPT-4V'nin BT tarama görüntüleri, laboratuvar test sayfaları ve hasta semptomları gibi diğer bilgilere dayalı olarak ayırıcı tanı ve takip testleri için öneriler sunabildiğini göstermiştir. Ayrıntılı bir analiz için lütfen orijinal makaleye bakın.

Sonuç ve Görünüm

Yazarlara göre, GPT-4V, resimli tıbbi lisans sınavı sorularında olağanüstü doğruluk göstermiştir ve GPT-4V'nin klinik karar desteği için sınırsız potansiyele sahip olduğunu göstermiştir. Bununla birlikte, GPT-4V'nin klinik senaryolara gerçekten uygulanabilir olabilmesi için yorumlama kalitesini ve güvenilirliğini iyileştirmesi gerekiyor.

Makalenin GPT-4V'nin kararını iyileştirmek için istemleri kullanma girişimi iyi sonuçlar verdi ve gelecekteki araştırmalar için umut verici bir yön önerdi: klinik ortamlarda daha güvenilir araçlar olarak kullanılabilecek daha karmaşık insan-yapay zeka işbirliği sistemlerinin geliştirilmesi. Teknoloji ilerlemeye ve araştırmalar derinleşmeye devam ettikçe, yapay zekanın bakım kalitesini iyileştirmede, doktorların iş yükünü azaltmada ve tıbbi hizmetlere evrensel erişimi teşvik etmede önemli bir rol oynamaya devam edeceğine inanmak için nedenler var.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)