Les résultats de l’examen de licence médicale GPT-4V surpassent ceux de la plupart des étudiants en médecine, dans quelle mesure l’IA va-t-elle être ajoutée à la pratique clinique ?
L’application de l’intelligence artificielle (IA) au diagnostic par imagerie médicale a parcouru un long chemin. Cependant, sans tests rigoureux, il est souvent difficile pour les médecins de faire confiance aux résultats diagnostiques de l’IA. Pour eux, comprendre les jugements portés par l’IA à partir d’images médicales nécessite un coût cognitif supplémentaire.
Pour accroître la confiance entre les médecins et l’IA dans le domaine paramédical, il peut s’agir d’un moyen efficace de faire passer à l’IA un examen de qualification que les médecins doivent passer. L’examen d’accès à la profession médicale est un test normalisé utilisé pour évaluer les connaissances et les compétences professionnelles des médecins, et constitue la base pour mesurer la capacité d’un médecin à prendre soin des patients de manière sûre et efficace.
Dans la dernière étude, une équipe interdisciplinaire de chercheurs de l’Université du Massachusetts et de l’Université Fudan a atteint le meilleur niveau d’intelligence artificielle dans les questions-réponses médicales en utilisant un modèle multimodal génératif pré-entraîné, GPT-4V (ision). L’étude a testé la capacité de GPT-4V à répondre aux questions de l’examen de licence médicale des États-Unis, en particulier celles qui contiennent des images – un défi pour les systèmes d’IA médicale depuis longtemps.
L’étude montre que GPT-4V surpasse non seulement ses prédécesseurs tels que GPT-4 et ChatGPT, mais surpasse également la plupart des étudiants en médecine, offrant une possibilité théorique que l’IA puisse être utilisée comme outil d’aide au diagnostic et à la prise de décision clinique. L’étude a analysé les performances de GPT-4V dans différents sous-domaines médicaux.
Dans le même temps, l’étude souligne également les limites de l’IA médicale en termes d’interprétation cohérente, soulignant l’importance de la collaboration homme-machine dans le diagnostic médical futur.
Liens vers les articles :
Collection de questions de test
Dans cette étude, les types de questions utilisés pour tester l’examen de licence médicale AI sont des questions à choix multiples avec des images qui impliquent différents domaines médicaux et varient en difficulté. Les auteurs ont sélectionné trois séries de questions à choix multiples de l’examen d’autorisation d’exercice de la médecine des États-Unis (USMLE), de la banque de questions de l’examen des étudiants en médecine (AMBOSS) et de l’examen de base de qualification en radiologie diagnostique (DRQCE), totalisant 226 questions (28 domaines médicaux), pour tester l’exactitude du GPT-4V.
LES DONNÉES D’AMBOSS ET DE DRQCE NE SONT PAS ACCESSIBLES AU PUBLIC, ET LES UTILISATEURS DOIVENT S’INSCRIRE POUR LES OBTENIR. Chaque question de l’ensemble de données AMBOSS présente un ensemble de difficultés. Les questions sont notées sur cinq échelles de difficulté, les notes 1, 2, 3, 4 et 5 représentant respectivement 20 %, 20 % à 50 %, 50 % à 80 %, 80 % à 95 % et 95 % à 100 % des questions auxquelles les élèves sont les plus susceptibles de répondre correctement la première fois.
En outre, les auteurs ont recueilli les préférences des professionnels de la santé pour évaluer si l’interprétation de GPT-4V défie le bon sens médical. Lorsque GPT-4V s’est trompé, les auteurs ont également recueilli les commentaires de professionnels de la santé pour améliorer GPT-4V.
*GPT-4V est testé avec des questions de l’examen de licence médicale des États-Unis (USMLE) qui contiennent des images. *
Exactitude
Les résultats ont montré que GPT-4V a démontré des taux de précision élevés sur les questions d’examen d’autorisation médicale avec des images, atteignant respectivement 86,2 %, 62,0 % et 73,1 % sur USMLE, AMBOSS et DRQCE, dépassant de loin ChatGPT et GPT-4. GPT-4V peut se classer à peu près dans les 20 à 30 % supérieurs par rapport aux étudiants qui se préparent à l’examen.
Et en 2022, environ 90 % des 90 % des meilleurs candidats à l’examen d’autorisation d’exercer la médecine aux États-Unis ont réussi, ce qui signifie que GPT-4V aura un temps relativement facile à réussir. La précision de GPT-4V reflète sa vaste connaissance des sciences biomédicales et cliniques, ainsi que sa capacité à résoudre les problèmes rencontrés dans la relation entre les médecins et les patients. Ce sont toutes des compétences essentielles pour entrer dans la pratique clinique de la médecine.
*GPT-4V a largement surpassé ChatGPT et GPT-4 à l’U.S. Medical Licensing Examination (USMLE). *
GPT-4V ÉTAIT PRÉCIS À 86 % ET 63 % À AMBOSS AVEC ET SANS INDICES, RESPECTIVEMENT. Au fur et à mesure que la difficulté de la question augmentait, les performances de GPT-4V montraient une tendance à la baisse lorsque les invites n’étaient pas utilisées (test du chi carré, niveau de signification 0,05). Cependant, cette tendance à la baisse n’est pas perceptible lorsque l’on pose des questions à l’aide d’invites. Cela suggère que les conseils des professionnels de la santé peuvent être un excellent moyen d’aider GPT-4 à prendre les bonnes décisions.
GPT-4V et la précision des étudiants aux examens AMBOSS de difficulté variable
Nature explicative
En ce qui concerne la qualité de l’interprétation, les auteurs ont constaté que lorsque GPT-4V répondait correctement, la préférence des professionnels de la santé pour l’interprétation donnée par GPT-4V n’était pas très différente de celle donnée par les experts. Cela montre que l’interprétation de GPT-4V est crédible et professionnelle. Les auteurs ont également constaté que plus de 80 % des explications de GPT-4V incluaient des interprétations d’images et de texte dans les questions, ce qui suggère que GPT-4V était capable d’utiliser des données multimodales pour générer des réponses.
Cependant, lorsque GPT-4V ne répond pas correctement, il existe également de graves problèmes d’interprétation, tels qu’une mauvaise compréhension de l’image, une hallucination de texte, une erreur de raisonnement, etc., qui peuvent affecter la fiabilité et l’interprétabilité de GPT-4V.
*Pour chaque question d’examen, les professionnels de la santé choisissent une préférence parmi les explications générées par des experts et les explications générées par GPT-4V. L’examen est divisé en 3 étapes : Étape 1, Étape 2CK et Étape 3. 50 questions sont sélectionnées pour chaque étape à tester. *
Les auteurs ont constaté que bon nombre des explications des réponses incorrectes de GPT-4V étaient des malentendus d’image. Sur les 55 réponses incorrectes, 42 (76,3 %) étaient dues à des malentendus d’image. En revanche, seulement 10 réponses (18,2 %) ont été attribuées à tort à des hallucinations textuelles.
En cas de malentendus sur les images, l’auteur recommande d’utiliser des invites sous forme d’images ou de texte. Par exemple, un médecin peut utiliser une flèche pour indiquer un emplacement important dans un diagramme ou une phrase ou deux pour expliquer la signification d’une image afin d’inciter le modèle. Lorsque les médecins ont utilisé des invites textuelles, 40,5% (17/42) des réponses incorrectes précédentes ont été corrigées par GPT-4V.
Potentiel de diagnostic auxiliaire
Les auteurs démontrent également la possibilité d’utiliser GPT-4V comme aide au diagnostic par imagerie. Sur la base d’un rapport de cas d’un patient hypertendu, le médecin pose des questions sur GPT-4V. L’analyse qualitative a montré que GPT-4V est capable de fournir des recommandations pour le diagnostic différentiel et les tests de suivi basés sur d’autres informations telles que les images de tomodensitométrie, les feuilles de test de laboratoire et les symptômes des patients. Veuillez vous référer à l’article original pour une analyse détaillée.
Conclusion et perspectives
Selon les auteurs, GPT-4V a démontré une précision extraordinaire sur les questions d’examen d’autorisation médicale avec des images, et que GPT-4V a un potentiel illimité pour l’aide à la décision clinique. Cependant, GPT-4V doit encore améliorer sa qualité d’interprétation et sa fiabilité avant de pouvoir être véritablement applicable aux scénarios cliniques.
La tentative de l’article d’utiliser des invites pour améliorer le jugement de GPT-4V a donné de bons résultats, suggérant une direction prometteuse pour les recherches futures : le développement de systèmes de collaboration homme-IA plus sophistiqués qui peuvent être utilisés comme outils plus fiables dans les milieux cliniques. Alors que la technologie continue de progresser et que la recherche continue de s’approfondir, il y a des raisons de croire que l’IA continuera de jouer un rôle important dans l’amélioration de la qualité des soins, la réduction de la charge de travail des médecins et la promotion de l’accès universel aux services médicaux.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Les résultats de l’examen de licence médicale GPT-4V surpassent ceux de la plupart des étudiants en médecine, dans quelle mesure l’IA va-t-elle être ajoutée à la pratique clinique ?
Source de l’article : Heart of the Machine
L’application de l’intelligence artificielle (IA) au diagnostic par imagerie médicale a parcouru un long chemin. Cependant, sans tests rigoureux, il est souvent difficile pour les médecins de faire confiance aux résultats diagnostiques de l’IA. Pour eux, comprendre les jugements portés par l’IA à partir d’images médicales nécessite un coût cognitif supplémentaire.
Pour accroître la confiance entre les médecins et l’IA dans le domaine paramédical, il peut s’agir d’un moyen efficace de faire passer à l’IA un examen de qualification que les médecins doivent passer. L’examen d’accès à la profession médicale est un test normalisé utilisé pour évaluer les connaissances et les compétences professionnelles des médecins, et constitue la base pour mesurer la capacité d’un médecin à prendre soin des patients de manière sûre et efficace.
Dans la dernière étude, une équipe interdisciplinaire de chercheurs de l’Université du Massachusetts et de l’Université Fudan a atteint le meilleur niveau d’intelligence artificielle dans les questions-réponses médicales en utilisant un modèle multimodal génératif pré-entraîné, GPT-4V (ision). L’étude a testé la capacité de GPT-4V à répondre aux questions de l’examen de licence médicale des États-Unis, en particulier celles qui contiennent des images – un défi pour les systèmes d’IA médicale depuis longtemps.
L’étude montre que GPT-4V surpasse non seulement ses prédécesseurs tels que GPT-4 et ChatGPT, mais surpasse également la plupart des étudiants en médecine, offrant une possibilité théorique que l’IA puisse être utilisée comme outil d’aide au diagnostic et à la prise de décision clinique. L’étude a analysé les performances de GPT-4V dans différents sous-domaines médicaux.
Dans le même temps, l’étude souligne également les limites de l’IA médicale en termes d’interprétation cohérente, soulignant l’importance de la collaboration homme-machine dans le diagnostic médical futur.
Collection de questions de test
Dans cette étude, les types de questions utilisés pour tester l’examen de licence médicale AI sont des questions à choix multiples avec des images qui impliquent différents domaines médicaux et varient en difficulté. Les auteurs ont sélectionné trois séries de questions à choix multiples de l’examen d’autorisation d’exercice de la médecine des États-Unis (USMLE), de la banque de questions de l’examen des étudiants en médecine (AMBOSS) et de l’examen de base de qualification en radiologie diagnostique (DRQCE), totalisant 226 questions (28 domaines médicaux), pour tester l’exactitude du GPT-4V.
LES DONNÉES D’AMBOSS ET DE DRQCE NE SONT PAS ACCESSIBLES AU PUBLIC, ET LES UTILISATEURS DOIVENT S’INSCRIRE POUR LES OBTENIR. Chaque question de l’ensemble de données AMBOSS présente un ensemble de difficultés. Les questions sont notées sur cinq échelles de difficulté, les notes 1, 2, 3, 4 et 5 représentant respectivement 20 %, 20 % à 50 %, 50 % à 80 %, 80 % à 95 % et 95 % à 100 % des questions auxquelles les élèves sont les plus susceptibles de répondre correctement la première fois.
En outre, les auteurs ont recueilli les préférences des professionnels de la santé pour évaluer si l’interprétation de GPT-4V défie le bon sens médical. Lorsque GPT-4V s’est trompé, les auteurs ont également recueilli les commentaires de professionnels de la santé pour améliorer GPT-4V.
Exactitude
Les résultats ont montré que GPT-4V a démontré des taux de précision élevés sur les questions d’examen d’autorisation médicale avec des images, atteignant respectivement 86,2 %, 62,0 % et 73,1 % sur USMLE, AMBOSS et DRQCE, dépassant de loin ChatGPT et GPT-4. GPT-4V peut se classer à peu près dans les 20 à 30 % supérieurs par rapport aux étudiants qui se préparent à l’examen.
Et en 2022, environ 90 % des 90 % des meilleurs candidats à l’examen d’autorisation d’exercer la médecine aux États-Unis ont réussi, ce qui signifie que GPT-4V aura un temps relativement facile à réussir. La précision de GPT-4V reflète sa vaste connaissance des sciences biomédicales et cliniques, ainsi que sa capacité à résoudre les problèmes rencontrés dans la relation entre les médecins et les patients. Ce sont toutes des compétences essentielles pour entrer dans la pratique clinique de la médecine.
GPT-4V ÉTAIT PRÉCIS À 86 % ET 63 % À AMBOSS AVEC ET SANS INDICES, RESPECTIVEMENT. Au fur et à mesure que la difficulté de la question augmentait, les performances de GPT-4V montraient une tendance à la baisse lorsque les invites n’étaient pas utilisées (test du chi carré, niveau de signification 0,05). Cependant, cette tendance à la baisse n’est pas perceptible lorsque l’on pose des questions à l’aide d’invites. Cela suggère que les conseils des professionnels de la santé peuvent être un excellent moyen d’aider GPT-4 à prendre les bonnes décisions.
Nature explicative
En ce qui concerne la qualité de l’interprétation, les auteurs ont constaté que lorsque GPT-4V répondait correctement, la préférence des professionnels de la santé pour l’interprétation donnée par GPT-4V n’était pas très différente de celle donnée par les experts. Cela montre que l’interprétation de GPT-4V est crédible et professionnelle. Les auteurs ont également constaté que plus de 80 % des explications de GPT-4V incluaient des interprétations d’images et de texte dans les questions, ce qui suggère que GPT-4V était capable d’utiliser des données multimodales pour générer des réponses.
Cependant, lorsque GPT-4V ne répond pas correctement, il existe également de graves problèmes d’interprétation, tels qu’une mauvaise compréhension de l’image, une hallucination de texte, une erreur de raisonnement, etc., qui peuvent affecter la fiabilité et l’interprétabilité de GPT-4V.
Les auteurs ont constaté que bon nombre des explications des réponses incorrectes de GPT-4V étaient des malentendus d’image. Sur les 55 réponses incorrectes, 42 (76,3 %) étaient dues à des malentendus d’image. En revanche, seulement 10 réponses (18,2 %) ont été attribuées à tort à des hallucinations textuelles.
En cas de malentendus sur les images, l’auteur recommande d’utiliser des invites sous forme d’images ou de texte. Par exemple, un médecin peut utiliser une flèche pour indiquer un emplacement important dans un diagramme ou une phrase ou deux pour expliquer la signification d’une image afin d’inciter le modèle. Lorsque les médecins ont utilisé des invites textuelles, 40,5% (17/42) des réponses incorrectes précédentes ont été corrigées par GPT-4V.
Potentiel de diagnostic auxiliaire
Les auteurs démontrent également la possibilité d’utiliser GPT-4V comme aide au diagnostic par imagerie. Sur la base d’un rapport de cas d’un patient hypertendu, le médecin pose des questions sur GPT-4V. L’analyse qualitative a montré que GPT-4V est capable de fournir des recommandations pour le diagnostic différentiel et les tests de suivi basés sur d’autres informations telles que les images de tomodensitométrie, les feuilles de test de laboratoire et les symptômes des patients. Veuillez vous référer à l’article original pour une analyse détaillée.
Conclusion et perspectives
Selon les auteurs, GPT-4V a démontré une précision extraordinaire sur les questions d’examen d’autorisation médicale avec des images, et que GPT-4V a un potentiel illimité pour l’aide à la décision clinique. Cependant, GPT-4V doit encore améliorer sa qualité d’interprétation et sa fiabilité avant de pouvoir être véritablement applicable aux scénarios cliniques.
La tentative de l’article d’utiliser des invites pour améliorer le jugement de GPT-4V a donné de bons résultats, suggérant une direction prometteuse pour les recherches futures : le développement de systèmes de collaboration homme-IA plus sophistiqués qui peuvent être utilisés comme outils plus fiables dans les milieux cliniques. Alors que la technologie continue de progresser et que la recherche continue de s’approfondir, il y a des raisons de croire que l’IA continuera de jouer un rôle important dans l’amélioration de la qualité des soins, la réduction de la charge de travail des médecins et la promotion de l’accès universel aux services médicaux.