آیا می‌توان به تشخیص طبی ChatGPT اعتماد کرد؟

یک مطالعه جدید نشان می‌دهد کمتر از نیمی از موارد تشخیص‌های پزشکی ChatGPT دقیق به‌حساب می‌آیند؛ اما برای نتیجه‌گیری بهتر باید دقت و بررسی بیشتری دراین‌خصوص شود تا بتوان فهمید که ChatGPT واقعاً در تشخیص شرایط پزشکی چگونه عمل می‌کند. چون به نظر می‌رسد در بسیاری موارد مدل زبان اغلب تماس‌های پزشکی را اشتباه دریافت می‌کنند.

نقطه عطف در بلوغ هوش مصنوعی

دانشمندان از چت ربات هوش مصنوعی (AI) خواستند تا ۱۵۰ مطالعه موردی را از وب‌سایت پزشکی Medscape ارزیابی کنند. آنها دریافتند GPT ۳.۵ که ChatGPT را در سال ۲۰۲۲ راه‌اندازی کرد که تنها در ۴۹ درصد مواقع تشخیص درست می‌دهد.

البته تحقیقات قبلی نشان داده بود که ربات چت می‌تواند در آزمون مجوز پزشکی ایالات متحده (USMLE) موفق شود؛ یافته‌ای که توسط نویسندگان آن به‌عنوان «نقطه عطف قابل‌توجه در بلوغ هوش مصنوعی» مورد استقبال قرار گرفت.

در مطالعه جدیدی که در ۳۱ ژوئیه در ژورنال PLOS ONE منتشر شد، دانشمندان هشدار دادند برای موارد پیچیده پزشکی که نیاز به تشخیص انسانی دارند، به ربات چت اعتماد نکنید.

دکتر امریت کرپالانی، نویسنده ارشد این مطالعه و پزشک متخصص اطفال می‌گوید: در بعضی موارد که اگر افراد به پزشک دسترسی ندارند، ترسیده یا گیج شده‌اند ممکن است بهتر باشد به چنین ابزاری مانند هوش مصنوعی مراجعه کنند. زیرا به نظر می‌رسد می‌تواند توصیه‌های پزشکی مناسبی به آنها ارائه کند.

جایگزین‌شدن با پزشک

Schulich در دانشکده پزشکی و دندانپزشکی در دانشگاه غربی، انتاریو، به Live Science می‌گوید در جامعه پزشکی و در میان جامعه علمی بزرگ‌تر ما باید در مورد آموزش به جمعیت عمومی در مورد محدودیت‌های این ابزارها تلاش بیشتری کنیم.

هوش مصنوعی نباید جایگزین پزشک شما شود. چون در واقع توانایی ChatGPT برای توزیع اطلاعات بر اساس داده‌های آموزشی آن است.

چگونگی تشخیص و پاسخ‌دهی

به گزارش سایت livescience سیستم‌های هوش مصنوعی، الگوها را در کلماتی که در مورد آنها آموزش‌دیده‌اند شناسایی می‌کنند تا پیش‌بینی کنند که چه چیزی ممکن است به دنبال آنها بیاید.

به‌این‌ترتیب آنها می‌توانند به یک درخواست یا سؤال پاسخ دهند. این موضوع باعث می‌شود هم برای دانشجویان پزشکی و هم برای بیمارانی که به دنبال پاسخ‌های ساده‌شده برای سؤالات پیچیده پزشکی هستند مفید باشند. اما تمایل ربات‌ها به توهم ساختن پاسخ‌ کامل آنها را در تشخیص‌های پزشکی محدود می‌کند.

بررسی نتایج

محققان برای ارزیابی صحت توصیه‌های پزشکی ChatGPT؛ این مدل را با ۱۵۰ مطالعه موردی متنوع مانند تاریخچه بیمار، یافته‌های معاینه فیزیکی و تصاویر گرفته‌شده از آزمایشگاه ارائه کردند که هدف آن به چالش کشیدن توانایی‌های تشخیصی پزشکان کارآموز بود.

چت بات یکی از چهار سوال چندگزینه ای را قبل از پاسخ دادن به تشخیص و یک طرح درمانی انتخاب کرد تا محققان آن را برای دقت و وضوح ارزیابی کردند.

نتایج ضعیف بودند و ChatGPT در مورد دقت پزشکی بیشتر پاسخ‌های اشتباه دریافت می‌کرد؛ در حالی که در ۵۲ درصد مواقع نتایج کامل و مرتبط را ارائه می‌داد.

با وجود این، دقت کلی ربات چت بسیار بالاتر و ۷۴ درصد بود. به این معنا که می‌توانست پاسخ‌های چند گزینه‌ای اشتباه را با اطمینان بیشتری شناسایی کند و در واقع آنها را دور بزند.

ضرورت آموزش هوش مصنوعی

به‌این‌ترتیب نتیجه گرفته شد یکی از دلایل این عملکرد ضعیف آن است که هوش مصنوعی به‌اندازه کافی در خصوص مجموعه‌داده‌های بالینی مهم و بزرگ آموزش ندیده است؛ بنابراین نمی‌تواند نتایج حاصل از آزمایش‌های متعدد را تغییر دهد و از پرداختن به مطلق‌ها به طور مؤثر مانند انسان‌ها اجتناب می‌کند.

اما با وجود همه این موارد محققان می‌گویند هوش مصنوعی و ربات‌های چت همچنان می‌توانند در آموزش بیماران و پزشکان کارآموز مفید باشند؛ به شرطی که سیستم‌های هوش مصنوعی تحت نظارت باشند.

در واقع جامعه پزشکی در نهایت متوجه خواهد شد که پتانسیل زیادی برای تقویت تصمیم‌گیری بالینی، ساده‌کردن وظایف اداری و افزایش مشارکت بیماران وجود دارد.