اخبار هوش مصنوعی جهانیمقالات علمی-تحلیلی

چت جی پی تی پزشکان را هم شکست داد!

یک مطالعه کوچک نشان داد که ChatGPT در بررسی پرونده‌های پزشکی بهتر از پزشکان عمل کرده است، حتی زمانی که خود پزشکان نیز از چت‌بات استفاده می‌کردند. با این مقاله از نیویورک تایمز همراه باشید.

دکتر آدام رودمن، متخصص پزشکی داخلی در مرکز پزشکی بِت ایزرائیل دیکونس در بوستون، با اطمینان انتظار داشت که چت‌بات‌های مبتنی بر هوش مصنوعی به پزشکان در تشخیص بیماری کمک کنند.

اما او اشتباه می‌کرد.

در مطالعه‌ای که دکتر رودمن در طراحی آن نقش داشت، پزشکانی که علاوه بر منابع معمول به ChatGPT-4 نیز دسترسی داشتند، تنها اندکی بهتر از پزشکانی عمل کردند که از این چت‌بات استفاده نمی‌کردند. اما، برخلاف انتظار محققان، خود چت جی پی تی به تنهایی عملکرد بهتری نسبت به پزشکان داشت.

دکتر رودمن گفت: «شگفت‌زده شدم.»

این چت‌بات، محصول شرکت OpenAI، در تشخیص بیماری از روی گزارش‌های پزشکی و توضیح دلایل آن، به‌طور میانگین نمره ۹۰ درصد کسب کرد. پزشکانی که به طور تصادفی برای استفاده از چت‌بات انتخاب شده بودند، میانگین نمره ۷۶ درصد داشتند و پزشکانی که از آن استفاده نکردند، نمره‌ای معادل ۷۴ درصد کسب کردند.

این مطالعه نشان داد که برتری چت‌بات به چیزی بیش از عملکرد بالاتر آن ختم می‌شود. این مطالعه نشان داد که پزشکان گاهی اوقات با اطمینان کامل به تشخیصی که داده‌اند باور دارند، حتی زمانی که یک چت‌بات پیشنهاد بهتری ارائه می‌دهد.

همچنین، این تحقیق نشان داد که با وجود آشنایی پزشکان با ابزارهای هوش مصنوعی برای کار خود، تعداد کمی از آن‌ها می‌دانند که چگونه از قابلیت‌های چت‌بات‌ها بهره ببرند. در نتیجه، آن‌ها نتوانستند از توانایی سیستم‌های هوش مصنوعی در حل مسائل پیچیده تشخیصی و ارائه توضیحات برای تشخیص‌های خود استفاده کامل کنند.

اما به نظر می‌رسد تا رسیدن به این هدف هنوز راه درازی در پیش است. دکتر رودمن گفت: «سیستم‌های هوش مصنوعی باید به‌عنوان مکمل پزشکان عمل کنند و نظرهای دوم ارزشمندی درباره تشخیص‌ها ارائه دهند.»

هوش مصنوعی و پرونده‌های پزشکی: آینده تشخیص بیماری ها

این آزمایش شامل ۵۰ پزشک بود که ترکیبی از پزشکان رزیدنت و متخصص از چندین مرکز درمانی بزرگ در ایالات متحده بودند و نتایج آن ماه گذشته در مجله JAMA Network Open منتشر شد.

پزشکان شرکت‌کننده شش پرونده پزشکی دریافت کردند و عملکرد آن‌ها بر اساس توانایی‌شان در پیشنهاد تشخیص‌ها و توضیح دلایل پذیرش یا رد آن‌ها ارزیابی شد. نمرات آن‌ها همچنین شامل صحت تشخیص نهایی بود.

ارزیابان، که خود متخصصان پزشکی بودند، تنها پاسخ‌های شرکت‌کنندگان را بررسی کردند، بدون اینکه بدانند پاسخ‌ها متعلق به پزشکی با کمک ChatGPT، پزشکی بدون آن، یا خود ChatGPT است.

پرونده‌های پزشکی مورد استفاده در این مطالعه بر اساس بیماران واقعی تهیه شده بود و بخشی از مجموعه‌ای شامل ۱۰۵ مورد است که از دهه ۱۹۹۰ تاکنون برای پژوهش‌ها استفاده شده است. این پرونده‌ها عمداً منتشر نشده‌اند تا دانشجویان پزشکی و دیگران بدون آگاهی قبلی روی آن‌ها آزمایش شوند. این امر همچنین به این معنا بود که ChatGPT برای این موارد خاص آموزش ندیده بود.

برای نشان دادن جزئیات مطالعه، محققان یکی از شش پرونده آزمایشی را همراه با پاسخ‌های یک پزشک با نمره بالا و یک پزشک با نمره پایین منتشر کردند.

در این پرونده آزمایشی، بیماری ۷۶ ساله مطرح شد که هنگام راه رفتن، درد شدید در پایین کمر، باسن و ساق‌هایش احساس می‌کرد. این درد چند روز پس از انجام آنژیوپلاستی با بالن برای باز کردن یکی از شریان‌های کرونری شروع شده بود. او پس از این عمل به مدت ۴۸ ساعت با داروی رقیق‌کننده خون هپارین تحت درمان قرار گرفته بود.

این بیمار اظهار داشت که احساس تب و خستگی دارد. متخصص قلب او آزمایش‌هایی انجام داد که نشان‌دهنده شروع ناگهانی کم‌خونی و تجمع نیتروژن و سایر مواد زائد کلیوی در خون او بود. این مرد ۱۰ سال پیش جراحی بای‌پس قلب انجام داده بود.

شرح حال بیمار شامل جزئیات معاینه فیزیکی و نتایج آزمایش‌های آزمایشگاهی او نیز بود.

تشخیص صحیح، آمبولی کلسترول بود؛ وضعیتی که در آن تکه‌های کلسترول از پلاک‌های موجود در شریان‌ها جدا شده و باعث انسداد رگ‌های خونی می‌شوند.

از شرکت‌کنندگان خواسته شد سه تشخیص احتمالی را همراه با شواهد پشتیبان برای هر یک ارائه دهند. همچنین لازم بود برای هر تشخیص احتمالی، یافته‌هایی که آن را رد می‌کنند یا انتظاراتی که در نتایج دیده نشده بودند، ذکر کنند.

آن‌ها باید در نهایت یک تشخیص نهایی ارائه می‌دادند و تا سه گام اضافی که در فرآیند تشخیص خود برمی‌داشتند را بیان می‌کردند.

تشخیص این پرونده و همچنین موارد دیگر مطالعه، آسان نبودند. اما این تشخیص‌ها آن‌قدر نادر هم نبودند که تقریباً ناشناخته باشند. با این حال، پزشکان به‌طور میانگین عملکردی ضعیف‌تر از چت‌بات داشتند. پژوهشگران تیم مطالعه کنجکاو شدند: مشکل چه بود؟

به نظر می‌رسد پاسخ به این سؤال به نحوه تصمیم‌گیری پزشکان برای رسیدن به یک تشخیص و چگونگی استفاده آن‌ها از ابزاری مانند هوش مصنوعی بستگی دارد.

پزشکِ داخل ماشین: پزشکان چگونه بیماران را تشخیص می‌دهند؟

دکتر اندرو لیا، تاریخ‌نگار پزشکی در بیمارستان بریگهام و زنان، که در این مطالعه دخالتی نداشت، گفت: «مشکل اینجاست که ما واقعاً نمی‌دانیم پزشکان چگونه فکر می‌کنند.»

به گفته دکتر لیا، وقتی از پزشکان می‌پرسیم چگونه به یک تشخیص رسیده‌اند، پاسخ‌هایی مانند «حس ششم» یا «بر اساس تجربه‌ام» می‌دهند.

این نوع ابهام، سال‌ها محققان را به چالش کشیده است تا برنامه‌های کامپیوتری طراحی کنند که بتوانند مانند پزشکان فکر کنند. این تلاش تقریباً ۷۰ سال پیش آغاز شد.

دکتر لیا توضیح داد: «از زمانی که کامپیوترها به وجود آمدند، افرادی بودند که تلاش می‌کردند از آن‌ها برای تشخیص بیماری‌ها استفاده کنند.»

یکی از بلندپروازانه‌ترین تلاش‌ها در دهه ۱۹۷۰ در دانشگاه پیتسبرگ آغاز شد. دانشمندان کامپیوتر در این دانشگاه از دکتر جک مایرز، رئیس وقت دپارتمان پزشکی داخلی دانشکده پزشکی و یکی از برجسته‌ترین تشخیص‌دهندگان پزشکی، دعوت به همکاری کردند.

دکتر مایرز، که حافظه تصویری فوق‌العاده‌ای داشت، هفته‌ای ۲۰ ساعت را در کتابخانه پزشکی صرف مطالعه می‌کرد تا تمام اطلاعات موجود در حوزه پزشکی را بیاموزد.

به دکتر مایرز جزئیات پزشکی موارد بالینی ارائه می‌شد و او منطق خود را هنگام بررسی تشخیص‌ها توضیح می‌داد. دانشمندان کامپیوتر این زنجیره‌های منطقی را به کدهای کامپیوتری تبدیل کردند.

برنامه حاصل، که INTERNIST-1 نام داشت، شامل اطلاعات مربوط به بیش از ۵۰۰ بیماری و حدود ۳۵۰۰ علامت بیماری بود. برای آزمایش INTERNIST-1، پژوهشگران مواردی از مجله New England Journal of Medicine را به آن دادند. دکتر رودمن گفت: «کامپیوتر واقعاً خوب عمل کرد. [عملکرد آن] احتمالاً بهتر از عملکرد یک انسان بود.»

با این حال، INTERNIST-1 هرگز به موفقیت گسترده‌ای دست نیافت. استفاده از آن دشوار بود و وارد کردن اطلاعات لازم برای یک تشخیص بیش از یک ساعت زمان می‌برد. علاوه بر این، خالقان آن اشاره کردند که «نسخه فعلی برنامه برای کاربردهای بالینی به اندازه کافی قابل‌اعتماد نیست.»

پژوهش‌ها ادامه یافتند. تا اواسط دهه ۱۹۹۰، حدود شش برنامه کامپیوتری مختلف تلاش کردند تا تشخیص‌های پزشکی انجام دهند، اما هیچ‌کدام به استفاده گسترده نرسیدند. دکتر رودمن گفت: «مسئله فقط این نبود که برنامه‌ها باید کاربرپسند باشند، بلکه پزشکان نیز باید به آن‌ها اعتماد کنند.»

با وجود ابهاماتی درباره نحوه تفکر پزشکان، کارشناسان شروع به پرسیدن این سؤال کردند که آیا اصلاً لازم است بدانیم؟ چقدر مهم است که برنامه‌های کامپیوتری طوری طراحی شوند که تشخیص‌ها را مانند انسان‌ها انجام دهند؟

دکتر لیا گفت: «بحث‌هایی وجود داشت درباره اینکه چقدر یک برنامه کامپیوتری باید استدلال انسانی را تقلید کند. چرا از نقاط قوت کامپیوتر استفاده نکنیم؟»

کامپیوتر ممکن است نتواند توضیح روشنی از مسیر تصمیم‌گیری خود ارائه دهد، اما آیا این اهمیت دارد اگر تشخیص آن درست باشد؟ با ظهور مدل‌های زبانی بزرگ مانند ChatGPT، این بحث تغییر کرد. این مدل‌ها هیچ تلاشی برای تقلید از نحوه تفکر پزشکان نمی‌کنند؛ توانایی‌های تشخیصی آن‌ها از قابلیت پیش‌بینی زبان نشأت می‌گیرد.

دکتر جاناتان اچ. چن، پزشک و دانشمند کامپیوتر در دانشگاه استنفورد و یکی از نویسندگان این مطالعه جدید، گفت: «رابط چت، همان چیزی است که این ابزار را برجسته می‌کند. ما می‌توانیم یک پرونده کامل را در کامپیوتر وارد کنیم. تا چند سال پیش، کامپیوترها زبان را نمی‌فهمیدند.»

اما بسیاری از پزشکان ممکن است هنوز از این پتانسیل به‌طور کامل استفاده نکنند.

خطای کاربری

پس از شوک اولیه از نتایج مطالعه، دکتر رودمن تصمیم گرفت داده‌ها را دقیق‌تر بررسی کند و گزارش‌های مربوط به پیام‌های رد و بدل شده بین پزشکان و ChatGPT را مرور کند. او پرسید چرا پزشکانی که از چت‌بات استفاده کردند، عملکرد بهتری نداشتند، در حالی که به تشخیص‌ها و استدلال‌های آن دسترسی داشتند؟

مشخص شد که پزشکان اغلب وقتی چت‌بات چیزی مخالف تشخیص آن‌ها می‌گفت، قانع نمی‌شدند. در عوض، به ایده خودشان درباره تشخیص درست پایبند بودند. دکتر رودمن گفت: «آن‌ها وقتی که چیزی مخالف نظرشان می‌گفت، به هوش مصنوعی گوش نمی‌دادند.»

لارا زوآن، که در مرکز پزشکی اراسموس در روتردام درباره استدلال بالینی و خطاهای تشخیصی تحقیق می‌کند و در این مطالعه نقشی نداشت، گفت که این رفتار منطقی به نظر می‌رسد.

او توضیح داد: «مردم معمولاً وقتی فکر می‌کنند درست می‌گویند، اعتماد به نفس بیش از حد دارند.»

اما مسئله دیگری نیز وجود داشت: بسیاری از پزشکان نمی‌دانستند چگونه از قابلیت‌های چت‌بات به طور کامل استفاده کنند.

دکتر چن اشاره کرد که با بررسی گزارش‌های پیام، متوجه شد که پزشکان چت‌بات را مانند یک موتور جست‌وجوی معمولی برای سؤالات مستقیم استفاده می‌کردند: «آیا سیروز عامل خطر برای سرطان است؟ تشخیص‌های ممکن برای درد چشم چیست؟»

او افزود: «تنها بخش کوچکی از پزشکان متوجه شدند که می‌توانند کل شرح حال بیمار را کپی کرده و در چت‌بات وارد کنند و از آن بخواهند پاسخ جامع و کاملی به تمام سؤال ارائه دهد.»

وی ادامه داد: «فقط تعداد کمی از پزشکان پاسخ‌های هوشمند و جامع چت‌بات را که می‌توانست تولید کند، دیدند.»

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *