چت جی پی تی پزشکان را هم شکست داد!
یک مطالعه کوچک نشان داد که ChatGPT در بررسی پروندههای پزشکی بهتر از پزشکان عمل کرده است، حتی زمانی که خود پزشکان نیز از چتبات استفاده میکردند. با این مقاله از نیویورک تایمز همراه باشید.
دکتر آدام رودمن، متخصص پزشکی داخلی در مرکز پزشکی بِت ایزرائیل دیکونس در بوستون، با اطمینان انتظار داشت که چتباتهای مبتنی بر هوش مصنوعی به پزشکان در تشخیص بیماری کمک کنند.
اما او اشتباه میکرد.
در مطالعهای که دکتر رودمن در طراحی آن نقش داشت، پزشکانی که علاوه بر منابع معمول به ChatGPT-4 نیز دسترسی داشتند، تنها اندکی بهتر از پزشکانی عمل کردند که از این چتبات استفاده نمیکردند. اما، برخلاف انتظار محققان، خود چت جی پی تی به تنهایی عملکرد بهتری نسبت به پزشکان داشت.
دکتر رودمن گفت: «شگفتزده شدم.»
این چتبات، محصول شرکت OpenAI، در تشخیص بیماری از روی گزارشهای پزشکی و توضیح دلایل آن، بهطور میانگین نمره ۹۰ درصد کسب کرد. پزشکانی که به طور تصادفی برای استفاده از چتبات انتخاب شده بودند، میانگین نمره ۷۶ درصد داشتند و پزشکانی که از آن استفاده نکردند، نمرهای معادل ۷۴ درصد کسب کردند.
این مطالعه نشان داد که برتری چتبات به چیزی بیش از عملکرد بالاتر آن ختم میشود. این مطالعه نشان داد که پزشکان گاهی اوقات با اطمینان کامل به تشخیصی که دادهاند باور دارند، حتی زمانی که یک چتبات پیشنهاد بهتری ارائه میدهد.
همچنین، این تحقیق نشان داد که با وجود آشنایی پزشکان با ابزارهای هوش مصنوعی برای کار خود، تعداد کمی از آنها میدانند که چگونه از قابلیتهای چتباتها بهره ببرند. در نتیجه، آنها نتوانستند از توانایی سیستمهای هوش مصنوعی در حل مسائل پیچیده تشخیصی و ارائه توضیحات برای تشخیصهای خود استفاده کامل کنند.
اما به نظر میرسد تا رسیدن به این هدف هنوز راه درازی در پیش است. دکتر رودمن گفت: «سیستمهای هوش مصنوعی باید بهعنوان مکمل پزشکان عمل کنند و نظرهای دوم ارزشمندی درباره تشخیصها ارائه دهند.»
هوش مصنوعی و پروندههای پزشکی: آینده تشخیص بیماری ها
این آزمایش شامل ۵۰ پزشک بود که ترکیبی از پزشکان رزیدنت و متخصص از چندین مرکز درمانی بزرگ در ایالات متحده بودند و نتایج آن ماه گذشته در مجله JAMA Network Open منتشر شد.
پزشکان شرکتکننده شش پرونده پزشکی دریافت کردند و عملکرد آنها بر اساس تواناییشان در پیشنهاد تشخیصها و توضیح دلایل پذیرش یا رد آنها ارزیابی شد. نمرات آنها همچنین شامل صحت تشخیص نهایی بود.
ارزیابان، که خود متخصصان پزشکی بودند، تنها پاسخهای شرکتکنندگان را بررسی کردند، بدون اینکه بدانند پاسخها متعلق به پزشکی با کمک ChatGPT، پزشکی بدون آن، یا خود ChatGPT است.
پروندههای پزشکی مورد استفاده در این مطالعه بر اساس بیماران واقعی تهیه شده بود و بخشی از مجموعهای شامل ۱۰۵ مورد است که از دهه ۱۹۹۰ تاکنون برای پژوهشها استفاده شده است. این پروندهها عمداً منتشر نشدهاند تا دانشجویان پزشکی و دیگران بدون آگاهی قبلی روی آنها آزمایش شوند. این امر همچنین به این معنا بود که ChatGPT برای این موارد خاص آموزش ندیده بود.
برای نشان دادن جزئیات مطالعه، محققان یکی از شش پرونده آزمایشی را همراه با پاسخهای یک پزشک با نمره بالا و یک پزشک با نمره پایین منتشر کردند.
در این پرونده آزمایشی، بیماری ۷۶ ساله مطرح شد که هنگام راه رفتن، درد شدید در پایین کمر، باسن و ساقهایش احساس میکرد. این درد چند روز پس از انجام آنژیوپلاستی با بالن برای باز کردن یکی از شریانهای کرونری شروع شده بود. او پس از این عمل به مدت ۴۸ ساعت با داروی رقیقکننده خون هپارین تحت درمان قرار گرفته بود.
این بیمار اظهار داشت که احساس تب و خستگی دارد. متخصص قلب او آزمایشهایی انجام داد که نشاندهنده شروع ناگهانی کمخونی و تجمع نیتروژن و سایر مواد زائد کلیوی در خون او بود. این مرد ۱۰ سال پیش جراحی بایپس قلب انجام داده بود.
شرح حال بیمار شامل جزئیات معاینه فیزیکی و نتایج آزمایشهای آزمایشگاهی او نیز بود.
تشخیص صحیح، آمبولی کلسترول بود؛ وضعیتی که در آن تکههای کلسترول از پلاکهای موجود در شریانها جدا شده و باعث انسداد رگهای خونی میشوند.
از شرکتکنندگان خواسته شد سه تشخیص احتمالی را همراه با شواهد پشتیبان برای هر یک ارائه دهند. همچنین لازم بود برای هر تشخیص احتمالی، یافتههایی که آن را رد میکنند یا انتظاراتی که در نتایج دیده نشده بودند، ذکر کنند.
آنها باید در نهایت یک تشخیص نهایی ارائه میدادند و تا سه گام اضافی که در فرآیند تشخیص خود برمیداشتند را بیان میکردند.
تشخیص این پرونده و همچنین موارد دیگر مطالعه، آسان نبودند. اما این تشخیصها آنقدر نادر هم نبودند که تقریباً ناشناخته باشند. با این حال، پزشکان بهطور میانگین عملکردی ضعیفتر از چتبات داشتند. پژوهشگران تیم مطالعه کنجکاو شدند: مشکل چه بود؟
به نظر میرسد پاسخ به این سؤال به نحوه تصمیمگیری پزشکان برای رسیدن به یک تشخیص و چگونگی استفاده آنها از ابزاری مانند هوش مصنوعی بستگی دارد.
پزشکِ داخل ماشین: پزشکان چگونه بیماران را تشخیص میدهند؟
دکتر اندرو لیا، تاریخنگار پزشکی در بیمارستان بریگهام و زنان، که در این مطالعه دخالتی نداشت، گفت: «مشکل اینجاست که ما واقعاً نمیدانیم پزشکان چگونه فکر میکنند.»
به گفته دکتر لیا، وقتی از پزشکان میپرسیم چگونه به یک تشخیص رسیدهاند، پاسخهایی مانند «حس ششم» یا «بر اساس تجربهام» میدهند.
این نوع ابهام، سالها محققان را به چالش کشیده است تا برنامههای کامپیوتری طراحی کنند که بتوانند مانند پزشکان فکر کنند. این تلاش تقریباً ۷۰ سال پیش آغاز شد.
دکتر لیا توضیح داد: «از زمانی که کامپیوترها به وجود آمدند، افرادی بودند که تلاش میکردند از آنها برای تشخیص بیماریها استفاده کنند.»
یکی از بلندپروازانهترین تلاشها در دهه ۱۹۷۰ در دانشگاه پیتسبرگ آغاز شد. دانشمندان کامپیوتر در این دانشگاه از دکتر جک مایرز، رئیس وقت دپارتمان پزشکی داخلی دانشکده پزشکی و یکی از برجستهترین تشخیصدهندگان پزشکی، دعوت به همکاری کردند.
دکتر مایرز، که حافظه تصویری فوقالعادهای داشت، هفتهای ۲۰ ساعت را در کتابخانه پزشکی صرف مطالعه میکرد تا تمام اطلاعات موجود در حوزه پزشکی را بیاموزد.
به دکتر مایرز جزئیات پزشکی موارد بالینی ارائه میشد و او منطق خود را هنگام بررسی تشخیصها توضیح میداد. دانشمندان کامپیوتر این زنجیرههای منطقی را به کدهای کامپیوتری تبدیل کردند.
برنامه حاصل، که INTERNIST-1 نام داشت، شامل اطلاعات مربوط به بیش از ۵۰۰ بیماری و حدود ۳۵۰۰ علامت بیماری بود. برای آزمایش INTERNIST-1، پژوهشگران مواردی از مجله New England Journal of Medicine را به آن دادند. دکتر رودمن گفت: «کامپیوتر واقعاً خوب عمل کرد. [عملکرد آن] احتمالاً بهتر از عملکرد یک انسان بود.»
با این حال، INTERNIST-1 هرگز به موفقیت گستردهای دست نیافت. استفاده از آن دشوار بود و وارد کردن اطلاعات لازم برای یک تشخیص بیش از یک ساعت زمان میبرد. علاوه بر این، خالقان آن اشاره کردند که «نسخه فعلی برنامه برای کاربردهای بالینی به اندازه کافی قابلاعتماد نیست.»
پژوهشها ادامه یافتند. تا اواسط دهه ۱۹۹۰، حدود شش برنامه کامپیوتری مختلف تلاش کردند تا تشخیصهای پزشکی انجام دهند، اما هیچکدام به استفاده گسترده نرسیدند. دکتر رودمن گفت: «مسئله فقط این نبود که برنامهها باید کاربرپسند باشند، بلکه پزشکان نیز باید به آنها اعتماد کنند.»
با وجود ابهاماتی درباره نحوه تفکر پزشکان، کارشناسان شروع به پرسیدن این سؤال کردند که آیا اصلاً لازم است بدانیم؟ چقدر مهم است که برنامههای کامپیوتری طوری طراحی شوند که تشخیصها را مانند انسانها انجام دهند؟
دکتر لیا گفت: «بحثهایی وجود داشت درباره اینکه چقدر یک برنامه کامپیوتری باید استدلال انسانی را تقلید کند. چرا از نقاط قوت کامپیوتر استفاده نکنیم؟»
کامپیوتر ممکن است نتواند توضیح روشنی از مسیر تصمیمگیری خود ارائه دهد، اما آیا این اهمیت دارد اگر تشخیص آن درست باشد؟ با ظهور مدلهای زبانی بزرگ مانند ChatGPT، این بحث تغییر کرد. این مدلها هیچ تلاشی برای تقلید از نحوه تفکر پزشکان نمیکنند؛ تواناییهای تشخیصی آنها از قابلیت پیشبینی زبان نشأت میگیرد.
دکتر جاناتان اچ. چن، پزشک و دانشمند کامپیوتر در دانشگاه استنفورد و یکی از نویسندگان این مطالعه جدید، گفت: «رابط چت، همان چیزی است که این ابزار را برجسته میکند. ما میتوانیم یک پرونده کامل را در کامپیوتر وارد کنیم. تا چند سال پیش، کامپیوترها زبان را نمیفهمیدند.»
اما بسیاری از پزشکان ممکن است هنوز از این پتانسیل بهطور کامل استفاده نکنند.
خطای کاربری
پس از شوک اولیه از نتایج مطالعه، دکتر رودمن تصمیم گرفت دادهها را دقیقتر بررسی کند و گزارشهای مربوط به پیامهای رد و بدل شده بین پزشکان و ChatGPT را مرور کند. او پرسید چرا پزشکانی که از چتبات استفاده کردند، عملکرد بهتری نداشتند، در حالی که به تشخیصها و استدلالهای آن دسترسی داشتند؟
مشخص شد که پزشکان اغلب وقتی چتبات چیزی مخالف تشخیص آنها میگفت، قانع نمیشدند. در عوض، به ایده خودشان درباره تشخیص درست پایبند بودند. دکتر رودمن گفت: «آنها وقتی که چیزی مخالف نظرشان میگفت، به هوش مصنوعی گوش نمیدادند.»
لارا زوآن، که در مرکز پزشکی اراسموس در روتردام درباره استدلال بالینی و خطاهای تشخیصی تحقیق میکند و در این مطالعه نقشی نداشت، گفت که این رفتار منطقی به نظر میرسد.
او توضیح داد: «مردم معمولاً وقتی فکر میکنند درست میگویند، اعتماد به نفس بیش از حد دارند.»
اما مسئله دیگری نیز وجود داشت: بسیاری از پزشکان نمیدانستند چگونه از قابلیتهای چتبات به طور کامل استفاده کنند.
دکتر چن اشاره کرد که با بررسی گزارشهای پیام، متوجه شد که پزشکان چتبات را مانند یک موتور جستوجوی معمولی برای سؤالات مستقیم استفاده میکردند: «آیا سیروز عامل خطر برای سرطان است؟ تشخیصهای ممکن برای درد چشم چیست؟»
او افزود: «تنها بخش کوچکی از پزشکان متوجه شدند که میتوانند کل شرح حال بیمار را کپی کرده و در چتبات وارد کنند و از آن بخواهند پاسخ جامع و کاملی به تمام سؤال ارائه دهد.»
وی ادامه داد: «فقط تعداد کمی از پزشکان پاسخهای هوشمند و جامع چتبات را که میتوانست تولید کند، دیدند.»