آیا میتوان به تشخیص طبی ChatGPT اعتماد کرد؟
یک مطالعه جدید نشان میدهد کمتر از نیمی از موارد تشخیصهای پزشکی ChatGPT دقیق بهحساب میآیند؛ اما برای نتیجهگیری بهتر باید دقت و بررسی بیشتری دراینخصوص شود تا بتوان فهمید که ChatGPT واقعاً در تشخیص شرایط پزشکی چگونه عمل میکند. چون به نظر میرسد در بسیاری موارد مدل زبان اغلب تماسهای پزشکی را اشتباه دریافت میکنند.
نقطه عطف در بلوغ هوش مصنوعی
دانشمندان از چت ربات هوش مصنوعی (AI) خواستند تا ۱۵۰ مطالعه موردی را از وبسایت پزشکی Medscape ارزیابی کنند. آنها دریافتند GPT ۳.۵ که ChatGPT را در سال ۲۰۲۲ راهاندازی کرد که تنها در ۴۹ درصد مواقع تشخیص درست میدهد.
البته تحقیقات قبلی نشان داده بود که ربات چت میتواند در آزمون مجوز پزشکی ایالات متحده (USMLE) موفق شود؛ یافتهای که توسط نویسندگان آن بهعنوان «نقطه عطف قابلتوجه در بلوغ هوش مصنوعی» مورد استقبال قرار گرفت.
در مطالعه جدیدی که در ۳۱ ژوئیه در ژورنال PLOS ONE منتشر شد، دانشمندان هشدار دادند برای موارد پیچیده پزشکی که نیاز به تشخیص انسانی دارند، به ربات چت اعتماد نکنید.
دکتر امریت کرپالانی، نویسنده ارشد این مطالعه و پزشک متخصص اطفال میگوید: در بعضی موارد که اگر افراد به پزشک دسترسی ندارند، ترسیده یا گیج شدهاند ممکن است بهتر باشد به چنین ابزاری مانند هوش مصنوعی مراجعه کنند. زیرا به نظر میرسد میتواند توصیههای پزشکی مناسبی به آنها ارائه کند.
جایگزینشدن با پزشک
Schulich در دانشکده پزشکی و دندانپزشکی در دانشگاه غربی، انتاریو، به Live Science میگوید در جامعه پزشکی و در میان جامعه علمی بزرگتر ما باید در مورد آموزش به جمعیت عمومی در مورد محدودیتهای این ابزارها تلاش بیشتری کنیم.
هوش مصنوعی نباید جایگزین پزشک شما شود. چون در واقع توانایی ChatGPT برای توزیع اطلاعات بر اساس دادههای آموزشی آن است.
چگونگی تشخیص و پاسخدهی
به گزارش سایت livescience سیستمهای هوش مصنوعی، الگوها را در کلماتی که در مورد آنها آموزشدیدهاند شناسایی میکنند تا پیشبینی کنند که چه چیزی ممکن است به دنبال آنها بیاید.
بهاینترتیب آنها میتوانند به یک درخواست یا سؤال پاسخ دهند. این موضوع باعث میشود هم برای دانشجویان پزشکی و هم برای بیمارانی که به دنبال پاسخهای سادهشده برای سؤالات پیچیده پزشکی هستند مفید باشند. اما تمایل رباتها به توهم ساختن پاسخ کامل آنها را در تشخیصهای پزشکی محدود میکند.
بررسی نتایج
محققان برای ارزیابی صحت توصیههای پزشکی ChatGPT؛ این مدل را با ۱۵۰ مطالعه موردی متنوع مانند تاریخچه بیمار، یافتههای معاینه فیزیکی و تصاویر گرفتهشده از آزمایشگاه ارائه کردند که هدف آن به چالش کشیدن تواناییهای تشخیصی پزشکان کارآموز بود.
چت بات یکی از چهار سوال چندگزینه ای را قبل از پاسخ دادن به تشخیص و یک طرح درمانی انتخاب کرد تا محققان آن را برای دقت و وضوح ارزیابی کردند.
نتایج ضعیف بودند و ChatGPT در مورد دقت پزشکی بیشتر پاسخهای اشتباه دریافت میکرد؛ در حالی که در ۵۲ درصد مواقع نتایج کامل و مرتبط را ارائه میداد.
با وجود این، دقت کلی ربات چت بسیار بالاتر و ۷۴ درصد بود. به این معنا که میتوانست پاسخهای چند گزینهای اشتباه را با اطمینان بیشتری شناسایی کند و در واقع آنها را دور بزند.
ضرورت آموزش هوش مصنوعی
بهاینترتیب نتیجه گرفته شد یکی از دلایل این عملکرد ضعیف آن است که هوش مصنوعی بهاندازه کافی در خصوص مجموعهدادههای بالینی مهم و بزرگ آموزش ندیده است؛ بنابراین نمیتواند نتایج حاصل از آزمایشهای متعدد را تغییر دهد و از پرداختن به مطلقها به طور مؤثر مانند انسانها اجتناب میکند.
اما با وجود همه این موارد محققان میگویند هوش مصنوعی و رباتهای چت همچنان میتوانند در آموزش بیماران و پزشکان کارآموز مفید باشند؛ به شرطی که سیستمهای هوش مصنوعی تحت نظارت باشند.
در واقع جامعه پزشکی در نهایت متوجه خواهد شد که پتانسیل زیادی برای تقویت تصمیمگیری بالینی، سادهکردن وظایف اداری و افزایش مشارکت بیماران وجود دارد.