Skor Ujian Lisensi Medis GPT-4V mengungguli sebagian besar mahasiswa kedokteran, seberapa jauh AI akan ditambahkan ke praktik klinis?

Sumber artikel: Heart of the Machine

Sumber gambar: Dihasilkan oleh Unbounded AI

Penerapan kecerdasan buatan (AI) dalam diagnosis pencitraan medis telah berjalan jauh. Namun, tanpa pengujian yang ketat, seringkali sulit bagi dokter untuk mempercayai hasil diagnostik AI. Bagi mereka, memahami penilaian yang dibuat oleh AI berdasarkan gambar medis membutuhkan biaya kognitif tambahan.

Untuk meningkatkan kepercayaan antara dokter dan AI dalam paramedis, ini mungkin cara yang efektif agar AI lulus ujian kualifikasi yang harus dilalui dokter. Pemeriksaan Lisensi Medis adalah tes standar yang digunakan untuk mengevaluasi pengetahuan dan keterampilan profesional dokter, dan merupakan dasar untuk mengukur kemampuan dokter untuk merawat pasien dengan aman dan efektif.

Dalam studi terbaru, tim peneliti interdisipliner dari University of Massachusetts dan Fudan University telah menembus tingkat kecerdasan buatan terbaik dalam Tanya Jawab medis menggunakan model pra-terlatih multimodal generatif, GPT-4V (ision). Studi ini menguji kemampuan GPT-4V untuk menjawab pertanyaan pada Ujian Lisensi Medis AS, terutama yang berisi gambar – tantangan bagi sistem AI medis untuk waktu yang lama.

Studi ini menunjukkan bahwa GPT-4V tidak hanya melampaui pendahulunya seperti GPT-4 dan ChatGPT, tetapi juga melampaui sebagian besar mahasiswa kedokteran, memberikan kemungkinan teoritis bahwa AI dapat digunakan sebagai alat untuk membantu diagnosis dan pengambilan keputusan klinis. Studi ini menganalisis kinerja GPT-4V di berbagai subbidang medis.

Pada saat yang sama, penelitian ini juga menunjukkan keterbatasan AI medis dalam hal interpretasi yang konsisten, menekankan pentingnya kolaborasi manusia-mesin dalam diagnosis medis di masa depan.

Tautan Kertas:

Kumpulan Pertanyaan Tes

Dalam penelitian ini, jenis pertanyaan yang digunakan untuk menguji ujian lisensi medis AI adalah pertanyaan pilihan ganda dengan gambar yang melibatkan bidang medis yang berbeda dan bervariasi dalam kesulitan. Para penulis memilih tiga set pertanyaan pilihan ganda dari United States Medical Licensing Examination (USMLE), Medical Student Examination Question Bank (AMBOSS), dan Diagnostic Radiology Qualification Core Examination (DRQCE), dengan total 226 pertanyaan (28 bidang medis), untuk menguji akurasi GPT-4V.

DATA AMBOSS DAN DRQCE TIDAK TERSEDIA UNTUK UMUM, DAN PENGGUNA HARUS MENDAFTAR UNTUK MENDAPATKANNYA. Setiap pertanyaan dalam himpunan data AMBOSS memiliki serangkaian kesulitan. Pertanyaan dinilai berdasarkan lima skala kesulitan, dengan nilai 1, 2, 3, 4, dan 5 mewakili 20%, 20% -50%, 50% -80%, 80% -95%, dan 95% -100% dari pertanyaan yang paling mungkin dijawab siswa dengan benar pertama kali, masing-masing.

Selain itu, penulis mengumpulkan preferensi profesional medis untuk menilai apakah interpretasi GPT-4V menentang akal sehat medis. Ketika GPT-4V salah, penulis juga mengumpulkan umpan balik dari para profesional medis untuk meningkatkan GPT-4V.

*GPT-4V diuji dengan pertanyaan dari United States Medical Licensing Examination (USMLE) yang berisi gambar. *

Akurasi

Hasil penelitian menunjukkan bahwa GPT-4V menunjukkan tingkat akurasi yang tinggi pada pertanyaan ujian lisensi medis dengan gambar, masing-masing mencapai 86,2%, 62,0%, dan 73,1% pada USMLE, AMBOSS, dan DRQCE, jauh melampaui ChatGPT dan GPT-4. GPT-4V kira-kira dapat menempati peringkat 20-30% teratas dibandingkan dengan siswa yang mempersiapkan ujian.

Dan pada tahun 2022, sekitar 90% dari 90% kandidat teratas pada ujian lisensi medis AS lulus, yang berarti GPT-4V akan memiliki waktu yang relatif mudah untuk lulus. Keakuratan GPT-4V mencerminkan pengetahuannya yang luas tentang ilmu biomedis dan klinis, serta kemampuannya untuk memecahkan masalah yang dihadapi dalam hubungan antara dokter dan pasien. Ini semua adalah keterampilan penting untuk memasuki praktik klinis kedokteran.

*GPT-4V jauh mengungguli ChatGPT dan GPT-4 pada Pemeriksaan Lisensi Medis AS (USMLE). *

GPT-4V MASING-MASING 86% DAN 63% AKURAT DI AMBOSS DENGAN DAN TANPA PETUNJUK. Ketika kesulitan pertanyaan meningkat, kinerja GPT-4V menunjukkan tren menurun ketika prompt tidak digunakan (uji chi-square, tingkat signifikansi 0,05). Namun, tren penurunan ini tidak terlihat diamati ketika mengajukan pertanyaan menggunakan petunjuk. Ini menunjukkan bahwa tips dari profesional medis dapat menjadi cara yang bagus untuk membantu GPT-4 membuat keputusan yang tepat.

GPT-4V dan akurasi siswa pada ujian AMBOSS dengan berbagai kesulitan

Sifat Penjelasan

Dalam hal kualitas interpretasi, penulis menemukan bahwa ketika GPT-4V menjawab dengan benar, preferensi profesional medis untuk interpretasi yang diberikan oleh GPT-4V tidak jauh berbeda dari yang diberikan oleh para ahli. Ini menunjukkan bahwa interpretasi GPT-4V kredibel dan profesional. Para penulis juga menemukan bahwa lebih dari 80% penjelasan GPT-4V termasuk interpretasi gambar dan teks dalam pertanyaan, menunjukkan bahwa GPT-4V mampu menggunakan data multimodal untuk menghasilkan tanggapan.

Namun, ketika GPT-4V menjawab salah, ada juga beberapa masalah serius dalam interpretasinya, seperti kesalahpahaman gambar, halusinasi teks, kesalahan penalaran, dll., Yang dapat memengaruhi keandalan dan interpretabilitas GPT-4V.

* Untuk setiap pertanyaan ujian, profesional medis memilih preferensi dari penjelasan yang dihasilkan ahli dan penjelasan yang dihasilkan GPT-4V. Ujian dibagi menjadi 3 tahap: Step1, Step2CK, dan Step3. 50 pertanyaan dipilih untuk setiap tahap pengujian. *

Para penulis menemukan bahwa banyak penjelasan untuk jawaban GPT-4V yang salah adalah kesalahpahaman gambar. Dari 55 tanggapan yang salah, 42 (76,3%) disebabkan oleh kesalahpahaman gambar. Sebaliknya, hanya 10 tanggapan (18,2%) yang salah dikaitkan dengan halusinasi tekstual.

Untuk kesalahpahaman gambar, penulis merekomendasikan untuk menggunakan petunjuk dalam bentuk gambar atau teks. Misalnya, seorang dokter dapat menggunakan panah untuk menunjukkan lokasi penting dalam diagram atau satu atau dua kalimat untuk menjelaskan arti gambar untuk meminta model. Ketika dokter menggunakan petunjuk teks, 40,5% (17/42) dari jawaban salah sebelumnya dikoreksi oleh GPT-4V.

Potensi Diagnosis Tambahan

Para penulis juga menunjukkan kemungkinan menggunakan GPT-4V sebagai alat bantu diagnostik pencitraan. Berdasarkan laporan kasus pasien hipertensi, dokter mengajukan pertanyaan tentang GPT-4V. Analisis kualitatif telah menunjukkan bahwa GPT-4V mampu memberikan rekomendasi untuk diagnosis banding dan tes tindak lanjut berdasarkan informasi lain seperti gambar CT scan, lembar tes laboratorium, dan gejala pasien. Silakan merujuk ke makalah asli untuk analisis terperinci.

Kesimpulan dan Outlook

Menurut penulis, GPT-4V telah menunjukkan akurasi luar biasa pada pertanyaan ujian lisensi medis dengan gambar, dan bahwa GPT-4V memiliki potensi tak terbatas untuk dukungan keputusan klinis. Namun, GPT-4V masih perlu meningkatkan kualitas interpretasi dan keandalannya sebelum benar-benar dapat diterapkan pada skenario klinis.

Upaya makalah untuk menggunakan petunjuk untuk meningkatkan penilaian GPT-4V menghasilkan hasil yang baik, menunjukkan arah yang menjanjikan untuk penelitian di masa depan: pengembangan sistem kolaborasi manusia-AI yang lebih canggih yang dapat digunakan sebagai alat yang lebih andal dalam pengaturan klinis. Karena teknologi terus maju dan penelitian terus diperdalam, ada alasan untuk percaya bahwa AI akan terus memainkan peran penting dalam meningkatkan kualitas perawatan, mengurangi beban kerja dokter, dan mempromosikan akses universal ke layanan medis.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)