تتفوق درجات امتحان الترخيص الطبي GPT-4V على معظم طلاب الطب ، إلى أي مدى ستتم إضافة الذكاء الاصطناعي إلى الممارسة السريرية؟

مصدر المقال: قلب الآلة

* مصدر الصورة: تم إنشاؤه بواسطة الذكاء الاصطناعي غير محدود *

لقد قطع تطبيق الذكاء الاصطناعي (الذكاء الاصطناعي) في تشخيص التصوير الطبي شوطا طويلا. ومع ذلك ، بدون اختبارات صارمة ، غالبا ما يكون من الصعب على الأطباء الوثوق بالنتائج التشخيصية الذكاء الاصطناعي. بالنسبة لهم ، يتطلب فهم الأحكام التي تصدرها الذكاء الاصطناعي بناء على الصور الطبية تكلفة معرفية إضافية.

لزيادة الثقة بين الأطباء الذكاء الاصطناعي في الطب المساعد ، قد تكون طريقة فعالة لجعل الذكاء الاصطناعي يجتاز امتحان التأهيل الذي يجب على الأطباء اجتيازه. امتحان الترخيص الطبي هو اختبار موحد يستخدم لتقييم المعرفة والمهارات المهنية للأطباء ، وهو الأساس لقياس قدرة الطبيب على رعاية المرضى بأمان وفعالية.

في الدراسة الأخيرة ، اخترق فريق متعدد التخصصات من الباحثين من جامعة ماساتشوستس وجامعة فودان أفضل مستوى من الذكاء الاصطناعي في الأسئلة والأجوبة الطبية باستخدام نموذج متعدد الوسائط متعدد الوسائط تم تدريبه مسبقا ، GPT-4V (ision). اختبرت الدراسة قدرة GPT-4V على الإجابة على الأسئلة في امتحان الترخيص الطبي الأمريكي ، خاصة تلك التي تحتوي على صور - وهو تحد لأنظمة الذكاء الاصطناعي الطبية لفترة طويلة.

تظهر الدراسة أن GPT-4V لا يتفوق فقط على سابقاتها مثل GPT-4 و ChatGPT ، ولكنه يتفوق أيضا على معظم طلاب الطب ، مما يوفر إمكانية نظرية لاستخدام الذكاء الاصطناعي كأداة للمساعدة في التشخيص واتخاذ القرارات السريرية. حللت الدراسة أداء GPT-4V في المجالات الفرعية الطبية المختلفة.

في الوقت نفسه ، تشير الدراسة أيضا إلى قيود الذكاء الاصطناعي الطبية من حيث التفسير المتسق ، مع التأكيد على أهمية التعاون بين الإنسان والآلة في التشخيص الطبي في المستقبل.

روابط الورق:

جمع أسئلة الاختبار

في هذه الدراسة ، أنواع الأسئلة المستخدمة لاختبار اختبار الترخيص الطبي الذكاء الاصطناعي هي أسئلة متعددة الخيارات مع صور تشمل مجالات طبية مختلفة وتختلف في الصعوبة. اختار المؤلفون ثلاث مجموعات من أسئلة الاختيار من متعدد من امتحان الترخيص الطبي للولايات المتحدة (USMLE) ، وبنك أسئلة امتحان طلاب الطب (AMBOSS) ، والامتحان الأساسي لمؤهلات الأشعة التشخيصية (DRQCE) ، بإجمالي 226 سؤالا (28 مجالا طبيا) ، لاختبار دقة GPT-4V.

بيانات AMBOSS و DRQCE ليست متاحة للجمهور ، ويحتاج المستخدمون إلى التسجيل للحصول عليها. كل سؤال في مجموعة بيانات AMBOSS لديه مجموعة من الصعوبة. يتم تصنيف الأسئلة على خمسة مقاييس للصعوبة ، حيث تمثل الصفوف 1 و 2 و 3 و 4 و 5 20٪ -50٪ و 50٪ -80٪ و 80٪ -95٪ و 95٪ -100٪ من الأسئلة التي من المرجح أن يجيب عليها الطلاب بشكل صحيح في المرة الأولى ، على التوالي.

بالإضافة إلى ذلك ، جمع المؤلفون تفضيلات المهنيين الطبيين لتقييم ما إذا كان تفسير GPT-4V يتحدى الفطرة الطبية السليمة. عندما أخطأ GPT-4V ، جمع المؤلفون أيضا تعليقات من المهنيين الطبيين لتحسين GPT-4V.

* تم اختبار GPT-4V بأسئلة من امتحان الترخيص الطبي للولايات المتحدة (USMLE) تحتوي على صور. *

الدقة

أظهرت النتائج أن GPT-4V أظهر معدلات دقة عالية في أسئلة امتحان الترخيص الطبي بالصور ، حيث وصلت إلى 86.2٪ و 62.0٪ و 73.1٪ على USMLE و AMBOSS و DRQCE ، على التوالي ، متجاوزا بكثير ChatGPT و GPT-4. يمكن أن يصنف GPT-4V تقريبا في أعلى 20-30٪ مقارنة بالطلاب الذين يستعدون للامتحان.

وفي عام 2022 ، نجح حوالي 90٪ من أفضل 90٪ من المرشحين في امتحان الترخيص الطبي الأمريكي ، مما يعني أن GPT-4V سيكون لديه وقت سهل نسبيا للنجاح. تعكس دقة GPT-4V معرفتها الواسعة بالعلوم الطبية الحيوية والسريرية ، فضلا عن قدرتها على حل المشكلات التي تواجهها في العلاقة بين الأطباء والمرضى. هذه كلها مهارات أساسية لدخول الممارسة السريرية للطب.

* تفوق GPT-4V بكثير على ChatGPT و GPT-4 في امتحان الترخيص الطبي الأمريكي (USMLE). *

كان GPT-4V دقيقا بنسبة 86٪ و 63٪ في AMBOSS مع وبدون تلميحات ، على التوالي. مع زيادة صعوبة السؤال ، أظهر أداء GPT-4V اتجاها هبوطيا عند عدم استخدام المطالبات (اختبار مربع كاي ، مستوى الأهمية 0.05). ومع ذلك ، لا يتم ملاحظة هذا الاتجاه الهبوطي بشكل ملحوظ عند طرح الأسئلة باستخدام المطالبات. يشير هذا إلى أن نصائح المهنيين الطبيين يمكن أن تكون طريقة رائعة لمساعدة GPT-4 على اتخاذ القرارات الصحيحة.

* GPT-4V ودقة الطالب في امتحانات AMBOSS متفاوتة الصعوبة *

الطبيعة التفسيرية

من حيث جودة التفسير ، وجد المؤلفون أنه عندما أجاب GPT-4V بشكل صحيح ، فإن تفضيل المهنيين الطبيين للتفسير الذي قدمه GPT-4V لم يكن مختلفا كثيرا عن التفسير الذي قدمه الخبراء. هذا يدل على أن تفسير GPT-4V موثوق ومهني. وجد المؤلفون أيضا أن أكثر من 80٪ من تفسيرات GPT-4V تضمنت تفسيرات للصور والنصوص في الأسئلة ، مما يشير إلى أن GPT-4V كان قادرا على استخدام البيانات متعددة الوسائط لتوليد الردود.

ومع ذلك ، عندما يجيب GPT-4V بشكل غير صحيح ، هناك أيضا بعض المشكلات الخطيرة في تفسيره ، مثل سوء فهم الصورة ، وهلوسة النص ، وخطأ التفكير ، وما إلى ذلك ، مما قد يؤثر على موثوقية GPT-4V وقابليته للتفسير.

* لكل سؤال اختبار ، يختار المهنيون الطبيون تفضيلا من التفسيرات التي ينشئها الخبراء والتفسيرات التي ينشئها GPT-4V. ينقسم الاختبار إلى 3 مراحل: Step1 و Step2CK و Step3. يتم اختيار 50 سؤالا لكل مرحلة للاختبار. *

وجد المؤلفون أن العديد من التفسيرات لإجابات GPT-4V غير الصحيحة كانت سوء فهم للصور. من بين 55 إجابة غير صحيحة ، كان 42 (76.3٪) بسبب سوء فهم الصورة. في المقابل ، نسبت 10 ردود فقط (18.2٪) بشكل غير صحيح إلى الهلوسة النصية.

لسوء فهم الصورة ، يوصي المؤلف باستخدام المطالبات في شكل صور أو نص. على سبيل المثال ، يمكن للطبيب استخدام سهم للإشارة إلى موقع مهم في رسم تخطيطي أو جملة أو جملتين لشرح معنى الصورة لمطالبة النموذج. عندما استخدم الأطباء المطالبات النصية ، تم تصحيح 40.5٪ (17/42) من الإجابات غير الصحيحة السابقة بواسطة GPT-4V.

إمكانية التشخيص المساعد

يوضح المؤلفون أيضا إمكانية استخدام GPT-4V كمساعد تشخيصي للتصوير. بناء على تقرير حالة مريض ارتفاع ضغط الدم ، يطرح الطبيب أسئلة حول GPT-4V. أظهر التحليل النوعي أن GPT-4V قادر على تقديم توصيات للتشخيص التفريقي واختبارات المتابعة بناء على معلومات أخرى مثل صور الأشعة المقطعية وأوراق الاختبارات المعملية وأعراض المريض. يرجى الرجوع إلى الورقة الأصلية للحصول على تحليل مفصل.

الخاتمة والتوقعات

وفقا للمؤلفين ، أظهر GPT-4V دقة غير عادية في أسئلة امتحان الترخيص الطبي بالصور ، وأن GPT-4V لديه إمكانات غير محدودة لدعم القرار السريري. ومع ذلك ، لا يزال GPT-4V بحاجة إلى تحسين جودة تفسيره وموثوقيته قبل أن يكون قابلا للتطبيق حقا على السيناريوهات السريرية.

أسفرت محاولة الورقة البحثية لاستخدام المطالبات لتحسين حكم GPT-4V عن نتائج جيدة ، مما يشير إلى اتجاه واعد للبحث في المستقبل: تطوير أنظمة تعاون أكثر تطورا الذكاء الاصطناعي الإنسان يمكن استخدامها كأدوات أكثر موثوقية في الإعدادات السريرية. مع استمرار تقدم التكنولوجيا واستمرار تعميق الأبحاث ، هناك سبب للاعتقاد بأن الذكاء الاصطناعي ستستمر في لعب دور مهم في تحسين جودة الرعاية ، وتقليل عبء العمل على الأطباء ، وتعزيز الوصول الشامل إلى الخدمات الطبية.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت