Nghiên cứu của Harvard về "Chẩn đoán phòng cấp cứu AI chính xác hơn bác sĩ con người" bị thổi phồng quá mức, bác sĩ: thiếu đối chiếu thực tế

Nghiên cứu của Harvard chỉ ra tỷ lệ chính xác chẩn đoán cấp cứu đạt 67.1%, vượt qua bác sĩ nội khoa. Nhưng các bác sĩ cấp cứu phản bác rằng đây là sự thổi phồng quá mức của truyền thông, do nghiên cứu thiếu so sánh với bác sĩ cấp cứu thực thụ, và AI chỉ có thể xử lý văn bản, hiện vẫn chưa thể thay thế hoàn toàn con người trong việc chẩn đoán độc lập.

Nghiên cứu của Harvard: AI vượt trội hơn bác sĩ trong chẩn đoán tại phòng cấp cứu

Ngày 30 tháng 4, một nghiên cứu đăng trên tạp chí 《Science》 cho thấy, kết quả chẩn đoán của AI trong phòng cấp cứu chính xác hơn hai bác sĩ con người, nhanh chóng thu hút sự chú ý của giới ngành và truyền thông, nhưng dựa vào đó để khẳng định AI thực sự có thể làm bác sĩ còn quá sớm.

Nhóm nghiên cứu gồm các bác sĩ và nhà khoa học máy tính từ Trường Y Harvard và Trung tâm Y tế Beth Israel Deaconess đã phát hiện ra rằng, trong một thử nghiệm tập trung vào 76 bệnh nhân thực tế tại phòng cấp cứu Beth Israel, các nhà nghiên cứu đã so sánh kết quả chẩn đoán của mô hình OpenAI’s o1 và GPT-4o với chẩn đoán của hai bác sĩ nội khoa chính.

Kết quả cho thấy, trong ba giai đoạn chính của chẩn đoán ban đầu tại phòng cấp cứu, phân loại sơ bộ, đánh giá ban đầu của bác sĩ cấp cứu, và quyết định chuyển bệnh nhân vào phòng bệnh thường hoặc phòng chăm sóc đặc biệt, độ chính xác của mô hình GPT-o1 đều vượt trội so với GPT-4o và bác sĩ con người.

Trong giai đoạn phân loại sơ bộ ban đầu, khi thông tin ít nhất và cần đưa ra quyết định chính xác nhất, lợi thế của mô hình AI rõ ràng nhất. GPT-o1 cung cấp chẩn đoán hoàn toàn chính xác hoặc rất gần đúng trong 67.1% các ca, trong khi hai bác sĩ con người có tỷ lệ chính xác lần lượt là 55.3% và 50.0%.

Nguồn hình ảnh: Nghiên cứu của HarvardNghiên cứu của Harvard so sánh hiệu suất chẩn đoán của hai bác sĩ nội khoa chính với GPT-o1 và GPT-4 trong 76 ca lâm sàng

Chưa xử lý trước, Harvard dùng dữ liệu bệnh án thực tế để thử nghiệm

Khác với nhiều nghiên cứu trước đây, nhóm nghiên cứu của Harvard không thực hiện bất kỳ xử lý trước nào đối với dữ liệu y tế thực tế trước khi thử nghiệm mô hình; các ca bệnh tại phòng cấp cứu được trình bày hoàn toàn theo dạng nguyên bản trong hồ sơ điện tử cho mô hình AI.

Về phương pháp nghiên cứu, tiến sĩ Thomas Buckley, sinh viên tiến sĩ của Chương trình Tiến sĩ Y học Trí tuệ Nhân tạo tại Trường Y Harvard, giải thích rằng để hiểu rõ hiệu suất của mô hình trong môi trường thực tế, nhóm phải thử nghiệm khi dữ liệu lâm sàng còn rất ít, ngay từ giai đoạn ban đầu của bệnh nhân đến khám.

Đồng tác giả của nghiên cứu, Adam Rodman, cũng đề cập rằng, độ chính xác chẩn đoán của mô hình trong giai đoạn quyết định ban đầu của các ca bệnh cấp cứu thực tế đã sánh bằng hoặc vượt qua các bác sĩ chính, điều này khiến nhóm nghiên cứu rất ngạc nhiên.

Nguồn hình ảnh: Nghiên cứu của HarvardNghiên cứu của Harvard: So sánh hiệu suất dự đoán chẩn đoán lâm sàng của GPT o1-preview, GPT-4 và bác sĩ

AI chỉ xử lý được văn bản, y học thực tế đầy phi văn bản

Báo cáo nghiên cứu cũng chỉ ra rằng, các mô hình AI trò chuyện sinh sinh hiện tại vẫn còn nhiều hạn chế trong khả năng suy luận với các dữ liệu phi văn bản.

Điều này xuất phát từ việc, các nghiên cứu hiện tại chỉ đánh giá hiệu suất của mô hình AI khi tiếp nhận thông tin thuần túy bằng văn bản, trong khi môi trường y tế thực tế đầy ắp các dữ liệu phi văn bản, như cảm giác đau đớn của bệnh nhân qua thính giác, hoặc diễn giải hình ảnh y học qua thị giác.

AI vẫn chưa thể tự lập hành nghề y

Mặc dù AI thể hiện khả năng chẩn đoán xuất sắc, nhưng nghiên cứu cũng nhấn mạnh rằng, điều này không có nghĩa là mô hình AI có thể tự thực hiện công việc y tế.

Tiến sĩ Peter Brodeur, nhà nghiên cứu lâm sàng tại Trường Y Harvard, giải thích rằng, AI có thể đưa ra chẩn đoán chính xác ban đầu, nhưng cũng có thể đề xuất các xét nghiệm không cần thiết, gây thêm rủi ro sức khỏe cho bệnh nhân. Do đó, trong việc đánh giá hiệu suất y tế và an toàn, vẫn cần có sự kiểm soát cuối cùng của con người.

Nghiên cứu của Harvard thiếu so sánh với bác sĩ cấp cứu thực thụ

Bác sĩ cấp cứu Kristen Panthagani cũng đăng bài viết cho biết, kết quả của Harvard dù thú vị nhưng đã gây ra một số tiêu đề truyền thông thổi phồng quá mức.

Cô chỉ ra rằng, nghiên cứu của Harvard so sánh AI với bác sĩ nội khoa chính, thiếu dữ liệu so sánh với các bác sĩ cấp cứu thực thụ đang làm việc trong thực tế:

“Nếu chúng ta muốn so sánh công cụ AI với khả năng lâm sàng của bác sĩ, chúng ta nên bắt đầu bằng việc so sánh với các bác sĩ thực sự làm trong chuyên ngành đó. Nếu các mô hình ngôn ngữ lớn (LLM) đánh bại các bác sĩ da liễu trong kỳ thi chuyên ngành thần kinh, tôi sẽ không ngạc nhiên, nhưng biết điều đó không mang lại nhiều lợi ích thực chất.”

Cô cho biết, mục tiêu ban đầu của bác sĩ cấp cứu là xác định xem bệnh nhân có mắc bệnh nguy hiểm hay không, chứ không phải dự đoán chẩn đoán cuối cùng.

Nghiên cứu của Harvard cũng cảnh báo rằng, hiện chưa có khung trách nhiệm chính thức cho chẩn đoán AI, bệnh nhân vẫn cần có bác sĩ để hướng dẫn qua các quyết định sinh tử, và hỗ trợ các lựa chọn điều trị khó khăn.

Nhóm nghiên cứu kêu gọi, ngành y tế cần thiết phải tiến hành các thử nghiệm lâm sàng tiền cứu nghiêm ngặt trong môi trường chăm sóc bệnh nhân thực tế để đánh giá các công nghệ AI này, nhằm hiểu rõ cách đưa các công cụ này vào sử dụng an toàn trong chăm sóc lâm sàng, hỗ trợ bác sĩ con người.

Đọc thêm:
Tại sao AI sinh sinh tiến bộ chậm trong y tế và pháp lý? Người sáng lập Replit: Khả năng xác thực là chìa khóa

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim