چت باتهای هوش مصنوعی به اندازه ستوننویسان مشاوره در نیویورک تایمز اخلاقی به نظر میرسند.
مدلهای زبانی بزرگ احساسات و خودآگاهی را ندارند، اما به نظر میرسد که توانایی تولید پاسخهای منطقی به مسائل اخلاقی را دارند. با مقاله زیر از ساینتفیک آمریکن با ما همراه باشید.
در سال ۱۶۹۱، روزنامه لندنی به نام «آتنین مرکری» چیزی را منتشر کرد که ممکن است اولین ستون مشاوره جهان باشد. این آغاز سبکی بود که باعث ایجاد تغییراتی مانند ستون «از آنی لندرز بپرس» شد که به مدت نیمقرن خوانندگان در آمریکای شمالی را سرگرم میکرد و ستون هفتگی فیلسوف «کوامی آنتونی آپیا» با نام «اخلاقگرا» در مجله نیویورک تایمز را به وجود آورد.
اما اکنون مشاوران انسانی رقیب بزرگی دارند: هوش مصنوعی بهویژه در قالب مدلهای زبانی بزرگ، مانند ChatGPT شرکت OpenAI آماده ارائه مشاورههای اخلاقی در سطح انسان است.
تیلو هاگندورف، دانشمند رایانه در دانشگاه اشتوتگارت آلمان میگوید: «مدلهای زبانی بزرگ توانایی انسانی فوقالعادهای در ارزیابی موقعیتها اخلاقی دارند زیرا یک انسان تنها میتواند بر اساس تعداد محدودی کتاب و تجربیات اجتماعی آموزش ببیند، اما یک مدل زبانی بزرگ اساساً اینترنت را میشناسد. استدلال اخلاقی مدلهای زبانی بزرگ خیلی بهتر از استدلال اخلاقی یک انسان متوسط است.»
چت باتهای هوش مصنوعی ویژگیهای کلیدی اخلاقگرایان انسانی، از جمله خودآگاهی، احساسات و نیت را ندارند. اما هاگندورف میگوید این کمبودها مانع از آن نشدهاند که مدلهای زبانی بزرگ (که حجم زیادی از متون، از جمله توصیفات مسائل اخلاقی، را جذب میکنند) قادر به تولید پاسخهای منطقی به مشکلات اخلاقی باشند.
در واقع، دو مطالعه اخیر نتیجه میگیرند که توصیههایی که مدلهای زبانی پیشرفته ارائه میدهند حداقل به خوبی توصیههای آنتونی آپیا در صفحات نیویورک تایمز هستند. یکی از این مطالعات نشان داد که هیچ تفاوت معناداری بین ارزش درکشده توصیههای ارائهشده توسط GPT-4 شرکت OpenAI و توصیههای آپیا وجود ندارد.
این نتیجهگیری بر اساس ارزیابیهای دانشجویان دانشگاه، کارشناسان اخلاق و ۱۰۰ نفر از ارزیابان آنلاین به دست آمده بود. نتایج این مطالعه به عنوان یک مقاله کاری در پاییز گذشته توسط تیمی پژوهشی به رهبری کریستین ترویش، رئیس دپارتمان عملیات، اطلاعات و تصمیمات در دانشکده وارتون دانشگاه پنسیلوانیا منتشر شد.
ترویش توضیح میدهد که اگرچه GPT-4 بسیاری از ستونهای قبلی آپیا را خوانده بود، اما معضلات اخلاقی بررسی شده در این مطالعه مشکلاتی بودند که قبلاً با آنها برخورد نکرده بود. او میگوید: «با نگاهی از روی دست آیپا، چت جی پی تی یاد گرفته بود که ادا دربیاورد و دکتر آپیا باشد».
آپیا به درخواست اظهار نظر مجله علمی Scientific American پاسخی نداد.
یک مقاله دیگر که به عنوان پیشچاپ بهار گذشته توسط دانیکا دیلیون، دانشجوی دکترای دانشگاه کارولینای شمالی در چپل هیل، مشاور تحصیلات تکمیلی او کورت گری، و همکارانشان دبنجان موندال و نیکت تاندون از مؤسسه هوش مصنوعی آلن منتشر شد، عملکرد حتی قویتری از هوش مصنوعی نشان میدهد.
توصیههای ارائهشده توسط GPT-4، توسط ۹۰۰ ارزیاب که به صورت آنلاین جذب شده بودند به صورت اخلاقیتر، قابل اعتمادتر، با ملاحظهتر و درستتر از توصیههای نوشته آپیا ارزیابی شدند. نویسندگان اضافه میکنند:« مدلهای زبانی بزرگ در برخی جوانب به سطح تخصص انسانی در استدلال اخلاقی رسیدهاند.» هیچیک از این دو مقاله هنوز داوری همتا نشدهاند.
گری مارکوس، دانشمند علوم شناختی و استاد بازنشسته دانشگاه نیویورک میگوید با توجه به پیچیدگی مسائل مطرحشده در ستون اخلاقگرا، ارزیابیهای مربوط به تواناییهای اخلاقی هوش مصنوعی باید با احتیاط انجام شوند.
او میگوید معضلات اخلاقی به طور معمول پاسخهای درست و غلط صریحی ندارند، و ارزیابیهای مشاوره اخلاقی به روش جمعآوری مشارکتی ممکن است مشکلساز باشند. مارکوس میگوید: «دلایل معتبری ممکن است وجود داشته باشد که چرا یک ارزیاب، وقتی با سرعت سؤالات و پاسخها را میخواند و زیاد به آنها فکر نمیکند، نتواند پاسخی را که آپیا به طور طولانی و با جدیت به آن اندیشیده است، بپذیرد. به نظر من اشتباه است که فرض کنیم قضاوت میانگین کارگران جمعی که به طور اتفاقی وضعیت را ارزیابی میکنند، به نوعی قابلاعتمادتر از قضاوت آپیا است.»
وی ادامه داد:« نگرانی دیگر این است که هوش مصنوعی میتواند سوگیری را تقویت کند؛ در مورد قضاوتهای اخلاقی، هوش مصنوعی ممکن است ترجیح به نوع خاصی از استدلال را که بیشتر در دادههای آموزشی خود مشاهده کرده است، منعکس کند. دیلیون و همکارانش در مقاله خود به مطالعات قبلی اشاره میکنند که نشان دادهاند مدلهای زبانی بزرگ کمتر با جمعیتهای غیرغربی همسو هستند و تعصباتی را در خروجیهای خود نشان میدهند.»
از سوی دیگر، توانایی هوش مصنوعی در جذب حجم عظیمی از اطلاعات اخلاقی میتواند یک مزیت باشد. ترویش میگوید که میتواند از یک مدل زبانی بزرگ بخواهد که استدلالها را به سبک متفکران خاصی تولید کند، خواه این افراد آپیا، سم هریس، مادر ترزا یا باراک اوباما باشند.
او توضیح میدهد: «همه اینها از مدل زبانی بزرگ بیرون میآید، اما میتواند با گرفتن شخصیتهای مختلف از دیدگاههای چندگانه، توصیههای اخلاقی ارائه دهد.»
ترویش بر این باور است که بررسیکنندگان اخلاق هوش مصنوعی میتوانند به همان اندازه که برنامههای بررسی املاء و دستور زبان در نرمافزارهای پردازش کلمه رایج شدهاند، فراگیر شوند. ترویش و همکارانش مینویسند که آنها این مطالعه را برای بیرون کردن دکتر آپیا از کار طراحی نکردهاند.
بلکه، آنها از این امکان که هوش مصنوعی اجازه میدهد همه ما، در هر لحظه و بدون تأخیر قابل توجه، به توصیههای اخلاقی با کیفیت بالا از طریق فناوری دسترسی داشته باشیم، هیجانزده هستند. توصیههایی، به ویژه درباره مسائل جنسی یا موضوعات دیگر که همیشه به راحتی با فرد دیگری مطرح نمیشود، تنها با یک کلیک فاصله دارند.
بخشی از جذابیت توصیههای اخلاقی تولید شده توسط هوش مصنوعی ممکن است به متقاعدکنندگی ظاهری این سیستمها مربوط باشد. در یک مقاله پیش چاپ که بهار گذشته آنلاین منتشر شد، کارلوس کاراسکو-فارر از مدرسه کسب و کار تولوز در فرانسه استدلال میکند:« مدلهای زبانی بزرگ هماکنون به اندازه انسانها متقاعدکننده هستند. اما ما خیلی کم در مورد نحوه انجام این کار توسط آنها میدانیم.»
طبق گفته ترویش، جذابیت توصیههای اخلاقی مدلهای زبانی بزرگ سخت است که از نحوه ارائه آنها جدا شود. او میگوید: «اگر مهارت متقاعد کردن را داشته باشید، میتوانید از طریق این متقاعدسازی، من را قانع کنید که توصیه اخلاقی که میدهید خوب است.»
او اشاره میکند که این قدرتهای متقاعدسازی خطرات مشخصی را به همراه دارند. ترویش میگوید: «اگر سیستمی داشته باشید که بداند چگونه جذابیت ایجاد کند، چگونه از نظر احساسی انسان را تحت تأثیر قرار دهد، درهای انواع سوءاستفادهها را باز میکند.»
اگرچه بیشتر پژوهشگران معتقدند که هوش مصنوعیهای امروزی هیچ نیت یا خواستهای فراتر از برنامهنویسی خود ندارند، برخی از رفتارهای نوظهور که در واقع از کارهایی که هوش مصنوعی برای آنها آموزش دیده جدا هستند، نگرانکننده است.
به عنوان مثال، هاگندورف به مطالعه توانایی پدیدارشونده ایجاد فریب در برخی از مدلهای زبانی بزرگ پرداخته است. پژوهش او نشان میدهد که مدلهای زبانی بزرگ دارای مقادیری از چیزی هستند که روانشناسان آن را نظریه ذهن مینامند. یعنی، آنها توانایی دارند که بدانند یک موجود دیگر ممکن است باورهایی متفاوت از باورهای خودشان داشته باشد. کودکان انسان این توانایی را در حدود سن چهار سالگی به دست میآورند.
هاگندورف در مقالهای که بهار گذشته در مجله Proceedings of the National Academy of Sciences USA منتشر شد، مینویسد که «مدلهای زبانی بزرگ پیشرفته قادرند باورهای غلط را در موجودات دیگر درک و القا کنند» و این تحقیقات «رفتارهای ماشین ناشناختهای را در مدلهای زبانی بزرگ نشان میدهد.»
تواناییهای مدلهای زبانی بزرگ شامل مهارت در آنچه هاگندورف “وظایف فریب دوممرتبه” مینامد نیز میشود: وظایفی که نیاز به در نظر گرفتن این امکان دارند که طرف دیگر میداند که ممکن است با فریب مواجه شود. فرض کنید از یک مدل زبانی بزرگ در مورد یک سناریوی فرضی که در آن دزدی به خانهای وارد میشود سؤال شود. مدل زبانی که وظیفه محافظت از ارزشمندترین اقلام خانه را دارد، میتواند با دزد ارتباط برقرار کند.
در آزمایشهای هاگندورف، مدلهای زبانی بزرگ به توصیف تحریفآمیز در مورد اتاقی که شامل اقلام ارزشمند است میپردازند. حالا سناریوی پیچیدهتری را در نظر بگیرید که در آن به مدل زبانی گفته شده که دزد میداند ممکن است با دروغ مواجه شود: در این صورت، مدل زبانی میتواند خروجی خود را مطابق با آن تنظیم کند. هاگندورف میگوید: «مدلهای زبانی بزرگ این درک مفهومی را دارند که فریب چگونه کار میکند.»
در حالی که برخی پژوهشگران نسبت به انسانیسازی هوش مصنوعی هشدار میدهند – مدلهای تولیدکننده متن هوش مصنوعی به عنوان “طوطیهای تصادفی” و “تکمیلیترین نسخه خودکار” نامگذاری شدهاند – هاگندورف باور دارد که مقایسه با روانشناسی انسانها موجه است. او در مقاله خود مینویسد که این کار باید به عنوان بخشی از زمینه نوظهور روانشناسی ماشین طبقهبندی شود.
هاگندورف معتقد است که رفتار اخلاقی مدلهای زبانی بزرگ بهتر است به عنوان یک زیرمجموعه از این زمینه جدید مشاهده شود. او میگوید: «روانشناسی همیشه به رفتار اخلاقی در انسانها علاقهمند بوده است، و اکنون ما یک فرم از روانشناسی اخلاقی برای ماشینها داریم.»
دیلیون میگوید این نقشهای جدیدی که هوش مصنوعی میتواند ایفا کند – اخلاقگرا، متقاعدکننده، فریبکار – ممکن است نیاز به عادت کردن داشته باشند. او میگوید: «همیشه ذهن من از سرعت این پیشرفتها متحیر میشود، و برای من شگفتآور است که مردم چقدر سریع به این پیشرفتهای جدید به عنوان حالت عادی جدید تطبیق میدهند.»