موفقیت gpt-4 در آزمون تورینگ: ربات ها انسان ها را گول می زنند
بررسی ها از موفقیت gpt-4 در آزمون تورینگ حکایت دارند. با توجه به انتخابات متعدد در سراسر جهان و دسترسی بسیار ارزان به ChatGPT و سایر مدل های هوش مصنوعی، می توان انتظار چت های اتوماتیکی را داشت که مخاطبان را به یک سمت هدایت می کنند.
ابزارهای محبوب هوش مصنوعی مانند GPT-4 می توانند متونی روان و شبیه به انسان تولید کنند. این ابزارها آنقدر در انجام وظایف زبانی مختلف خوب عمل میکنند که تشخیص اینکه آیا فردی که با او مکالمه دارید انسان است یا ماشین، روز به روز دشوارتر میشود.
این سناریو بسیار شبیه به آزمایش معروف آلن تورینگ است. آزمون برای بررسی اینکه آیا یک ماشین میتواند رفتار انسانی را نمایش بدهد یا نه؟ اینکه یک قاضی انسانی می تواند بر اساس پاسخها به طور قابل اعتمادی تمایز بین انسان و ماشین را قائل شود یا خیر؟
دانشکده علوم شناختی دانشگاه کالیفرنیا سن دیگو در یک آزمایش تورینگکنترل شده، عملکرد سیستم های هوش مصنوعی مدرن را بررسی کرد. آنها ELIZA، یک ربات گفتوگوی ساده از دهه ۱۹۶۰ که به عنوان مبنای مقایسه در آزمایش گنجانده شده بود، GPT-3.5 و GPT-4 را ارزیابی کردند.
شرکتکنندگان یک گفتوگوی پنج دقیقهای با یک انسان یا هوش مصنوعی داشتند و سپس باید تصمیم میگرفتند که آیا شریک مکالمهشان انسان بود یا خیر.
عبور GPT-4 از آزمون تورینگ
در این مطالعه به مدلهای GPT-4 و GPT-3.5 گفته شد که چگونه به پیامها پاسخ دهند. پژوهشگران به این مدلها دستور دادند که «شخصیت یک فرد جوان را به خود بگیرند که بسیار مختصر صحبت میکند، بازی را جدی نمیگیرد، از اصطلاحات عامیانه استفاده میکند و گهگاه اشتباهات املایی دارد».
علاوه بر آن، متن ورودی شامل «اطلاعات عمومی درباره ساختار بازی و اطلاعاتی درباره اخبار اخیر بود که پس از قطع تاریخ آموزش مدل رخ داده بودند».
این دو مدل از طریق API اوپنایآی با دمای تنظیمشده به ۱ دسترسی داشتند و برای جلوگیری از پاسخدهی آنی هوش مصنوعی، پیامها با تاخیری بر اساس تعداد کاراکترهای پیام ارسال میشدند.
در این مطالعه، ۵۰۰ شرکتکننده به یکی از پنج گروه تخصیص داده شدند. آنها یک مکالمه با یک انسان یا یکی از سه سیستم هوش مصنوعی داشتند. رابط کاربری بازی شبیه یک اپلیکیشن پیامرسان معمولی بود. بعد از پنج دقیقه، از شرکتکنندگان خواسته شد که بگویند شریک مکالمهشان انسان بود یا هوش مصنوعی و دلایل تصمیماتشان را نیز ارائه کنند.
نتایج جالب بودند. GPT-4 در ۵۴٪ مواقع به عنوان انسان تشخیص داده شد، جلوتر از GPT-3.5 (با ۵۰٪)، و هر دو به طور قابل توجهی عملکرد بهتری از ELIZA (با ۲۲٪) داشتند. تمام این مدل ها از انسانهای واقعی (با ۶۷٪) عقبتر بودند.
شرکت کنندگان در تشخیص GPT-4 چندان بهتر از تصادف و شانس نبودند. این موضوع به خوبی نشان میدهد سیستمهای هوش مصنوعی کنونی میتوانند مردم را به این باور برسانند که آنها انسان هستند. به بیان دیگر، موفقیت gpt-4 در آزمون تورینگ می تواند نشانگر مدل های برتر در آینده باشد.
تحلیل نتایج نشان داد که شرکت کنندگان برای تشخیص ربات یا انسان، اغلب به سبک زبانی، عوامل اجتماعی-احساسی و سوالات مبتنی بر دانش تکیه میکنند.
جزئیات آزمون و نتایج کامل را میتوان در مقاله منتشرشده در arXiv مشاهده کرد.