موفقیت gpt-4 در آزمون تورینگ: ربات ها انسان ها را گول می زنند

6 تیر 1403

0 31 زمان تقریبی مطالعه 2 دقیقه

بررسی ها از موفقیت gpt-4 در آزمون تورینگ حکایت دارند. با توجه به انتخابات متعدد در سراسر جهان و دسترسی بسیار ارزان به ChatGPT و سایر مدل های هوش مصنوعی، می توان انتظار چت های اتوماتیکی را داشت که مخاطبان را به یک سمت هدایت می کنند.

ابزارهای محبوب هوش مصنوعی مانند GPT-4 می توانند متونی روان و شبیه به انسان تولید کنند. این ابزارها آن‌قدر در انجام وظایف زبانی مختلف خوب عمل می‌کنند که تشخیص اینکه آیا فردی که با او مکالمه دارید انسان است یا ماشین، روز به روز دشوارتر می‌شود.

این سناریو بسیار شبیه به آزمایش معروف آلن تورینگ است. آزمون برای بررسی اینکه آیا یک ماشین می‌تواند رفتار انسانی را نمایش بدهد یا نه؟ اینکه یک قاضی انسانی می تواند بر اساس پاسخ‌ها به طور قابل اعتمادی تمایز بین انسان و ماشین را قائل شود یا خیر؟

دانشکده علوم شناختی دانشگاه کالیفرنیا سن دیگو در یک آزمایش تورینگکنترل شده، عملکرد سیستم های هوش مصنوعی مدرن را بررسی کرد. آنها ELIZA، یک ربات گفت‌وگوی ساده از دهه ۱۹۶۰ که به عنوان مبنای مقایسه در آزمایش گنجانده شده بود، GPT-3.5 و GPT-4 را ارزیابی کردند.

شرکت‌کنندگان یک گفت‌وگوی پنج دقیقه‌ای با یک انسان یا هوش مصنوعی داشتند و سپس باید تصمیم می‌گرفتند که آیا شریک مکالمه‌شان انسان بود یا خیر.

موفقیت gpt-4 در آزمون تورینگ — نمونه مکالمات کاربران با چت بات تولید شده در مطالعه

عبور GPT-4 از آزمون تورینگ

در این مطالعه به مدل‌های GPT-4 و GPT-3.5 گفته شد که چگونه به پیام‌ها پاسخ دهند. پژوهشگران به این مدل‌ها دستور دادند که «شخصیت یک فرد جوان را به خود بگیرند که بسیار مختصر صحبت می‌کند، بازی را جدی نمی‌گیرد، از اصطلاحات عامیانه استفاده می‌کند و گهگاه اشتباهات املایی دارد».

علاوه بر آن، متن ورودی شامل «اطلاعات عمومی درباره ساختار بازی و اطلاعاتی درباره اخبار اخیر بود که پس از قطع تاریخ آموزش مدل رخ داده بودند».

این دو مدل از طریق API اوپن‌ای‌آی با دمای تنظیم‌شده به ۱ دسترسی داشتند و برای جلوگیری از پاسخ‌دهی آنی هوش مصنوعی، پیام‌ها با تاخیری بر اساس تعداد کاراکترهای پیام ارسال می‌شدند.

در این مطالعه، ۵۰۰ شرکت‌کننده به یکی از پنج گروه تخصیص داده شدند. آن‌ها یک مکالمه با یک انسان یا یکی از سه سیستم هوش مصنوعی داشتند. رابط کاربری بازی شبیه یک اپلیکیشن پیام‌رسان معمولی بود. بعد از پنج دقیقه، از شرکت‌کنندگان خواسته شد که بگویند شریک مکالمه‌شان انسان بود یا هوش مصنوعی و دلایل تصمیماتشان را نیز ارائه کنند.

نتایج جالب بودند. GPT-4 در ۵۴٪ مواقع به عنوان انسان تشخیص داده شد، جلوتر از GPT-3.5 (با ۵۰٪)، و هر دو به طور قابل توجهی عملکرد بهتری از ELIZA (با ۲۲٪) داشتند. تمام این مدل ها از انسان‌های واقعی (با ۶۷٪) عقب‌تر بودند.

شرکت کنندگان در تشخیص GPT-4 چندان بهتر از تصادف و شانس نبودند. این موضوع به خوبی نشان می‌دهد سیستم‌های هوش مصنوعی کنونی می‌توانند مردم را به این باور برسانند که آن‌ها انسان هستند. به بیان دیگر، موفقیت gpt-4 در آزمون تورینگ می تواند نشانگر مدل های برتر در آینده باشد.

تحلیل نتایج نشان داد که شرکت کنندگان برای تشخیص ربات یا انسان، اغلب به سبک زبانی، عوامل اجتماعی-احساسی و سوالات مبتنی بر دانش تکیه می‌کنند.

جزئیات آزمون و نتایج کامل را می‌توان در مقاله منتشرشده در arXiv مشاهده کرد.

برچسب ها