حداقل ۱۰٪ از تحقیقات علمی با کمک هوش مصنوعی نگاشته می شوند

7 مرداد 1403

0 20 زمان تقریبی مطالعه 6 دقیقه

هوش مصنوعی مولد ابزار بسیار قدرتمندی برای تولید محتواست. اخیرا با معرفی آخرین نسخه چت جی پی تی، این دسته از ابزاها به توانایی تولید متن غیر قابل تشخیص از متون انسانی دریافته اند. عجیب نیست که بخشی از تحقیقات علمی با کمک هوش مصنوعی انجام شود.

مطلب زیر از اکونومیست، بررسی این موضوع از یک مقاله ی جدید از سایت Arxiv است. با شبکه فناوران همراه باشید.

یکی از مقالات اخیر در مجله علمی Surfaces and Interfaces این‌گونه آغاز شده بود:« قطعاً، این می‌تواند مقدمه‌ای برای موضوع شما باشد…»

خوانندگان زبل شاید تعجب کنند که این جمله عجیب دقیقاً با چه کسی صحبت می‌کند. آن‌ها ممکن است همچنین تعجب کنند که آیا مقاله بعدی، که در مورد فناوری باتری بود، توسط انسان نوشته شده یا ماشین.

این سوالی است که هر روز بیشتر خوانندگان مقالات علمی از خود می‌پرسند. مدل‌های زبان بزرگ (LLMs) اکنون به اندازه‌ای رشد کرده اند که می‌توانند به نوشتن یک مقاله علمی کمک کنند. آنها می‌توانند به نثر علمی خشک زندگی ببخشند و روند نگارش را مخصوصاً برای افرادی که انگلیسی زبان مادری‌شان نیست، تسریع کنند.

البته این استفاده خطراتی هم دارد LLM ها به‌طور ویژه‌ای مستعد تکرار سوگیری هستند و می‌توانند مقادیر زیادی مزخرفات قابل قبول تولید کنند. اما میزان گستردگی این مسئله مبهم است.

در پیش‌نویس مقاله ای که اخیراً در arXiv منتشر شده، محققان دانشگاه توبینگن در آلمان و دانشگاه نورث‌وسترن در آمریکا کمی روشنگری کرده‌اند. تحقیق آنها، که هنوز مورد بازبینی همتایان قرار نگرفته، نشان می‌دهد که حداقل یک دهم مقالات علمی جدید حاوی مطالبی است که توسط یک LLM تولید شده است.

این به این معناست که فقط امسال بیش از ۱۰۰،۰۰۰ مقاله از این دست منتشر خواهند شد. و این عدد حد پایین تخمین هاست. در برخی حوزه‌ها، مانند علوم کامپیوتر، برآورد شده که بیش از ۲۰٪ از چکیده‌های تحقیقاتی حاوی متنی هستند که توسط LLM تولید شده است. در بین مقالات دانشمندان کامپیوتر چینی، این میزان یک در سه است.

شناسایی متن تولید شده توسط مدل‌های زبان بزرگ (LLMs) کار آسانی نیست. محققان معمولاً از یکی از دو روش استفاده می‌کنند:

الگوریتم‌های تشخیص که برای شناسایی الگوهای نوشتاری انسانی آموزش دیده‌اند
جستجوی کلمات مشکوکی که به طور غیرعادی توسط LLMها مورد استفاده قرار می‌گیرند، مانند پیووتال یا قلمرو.

هر دو روش به داده‌های حقیقت پایه نیاز دارند. حقیقت پایه مجموعه ای از متون نوشته شده توسط انسان و یک مجموعه از متون نوشته شده توسط ماشین است. جمع‌آوری این داده‌ها به طور شگفت‌آوری سخت است. متن‌هایی که هم توسط انسان و هم توسط ماشین‌ها تولید می‌شوند، با گذشت زمان تغییر می‌کنند. چرا که زبان‌ها تکامل می‌یابند و مدل‌ها به‌روزرسانی می‌شوند.

علاوه بر آن محققان معمولاً متن‌های LLM را با استفاده از دستورات خودشان جمع‌آوری می‌کنند، و نحوه انجام این کار ممکن است با رفتار واقعی مصرف کنندگان این مدل ها متفاوت باشد.

تحقیقات اخیر دیمیتری کوباک از دانشگاه توبینگن و همکارانش، یک روش سوم را نشان می‌دهد که نیاز به داده‌های حقیقت پایه را به کلی کنار می‌گذارد. روش تیم از کارهای جمعیتی در مورد مرگ‌های اضافی الهام گرفته است. روش اصلی امکان تعیین مرگ و میرهای مرتبط با یک رویداد با مشاهده تفاوت‌های بین تعداد مرگ‌های مورد انتظار و تعداد مشاهده‌شده، می دهد.

همان‌طور که روش مرگ‌های اضافی به دنبال نرخ مرگ و میر غیرعادی است، روش واژگان اضافی آن‌ها به دنبال استفاده غیرعادی از کلمات است. به طور خاص، محققان به دنبال کلماتی بودند که با فرکانسی بسیار بیشتر از آنچه در ادبیات موجود پیش‌بینی می‌شود، در چکیده‌های علمی ظاهر می‌شدند (نمودار ۱).

مجموعه‌ای که برای تحلیل انتخاب کردند شامل چکیده‌های تقریباً تمام مقالات به زبان انگلیسی موجود در PubMed، یک موتور جستجوی تحقیقات زیست‌پزشکی، بود که بین ژانویه ۲۰۱۰ تا مارس ۲۰۲۴ منتشر شده‌اند، یعنی حدود ۱۴.۲ میلیون مقاله.

محققان دریافتند که در اکثر سال‌ها، استفاده از کلمات نسبتاً پایدار بود: در هیچ سالی بین ۲۰۱۳ تا ۲۰۱۹، افزایش فرکانس کلمات بیش از ۱٪ نبود. این تغییر در سال ۲۰۲۰ مشاهده شد. زمانی که کلماتی مانند “SARS”، “coronavirus”، “pandemic”، “disease”، “patients” و “severe” همه به طور چشم‌گیری افزایش یافتند. کلمات مرتبط با همه گیری کووید تا سال ۲۰۲۲ همچنان به طور غیرعادی بالایی مورد استفاده قرار گرفتند.

تا اوایل سال ۲۰۲۴، حدود یک سال پس از اینکه مدل‌های زبانی بزرگ (LLMs) مانند ChatGPT به طور گسترده در دسترس قرار گرفتند، مجموعه‌ای متفاوت از کلمات محبوب شدند. از بین ۷۷۴ کلمه‌ای که استفاده از آن‌ها بین سال‌های ۲۰۱۳ تا ۲۰۲۴ به طور قابل توجهی افزایش یافت، ۳۲۹ کلمه فقط در سه ماه اول سال ۲۰۲۴ اوج گرفتند.

۲۸۰ تا از این کلمات بیشتر به سبک نوشتاری مربوط می‌شدند تا موضوع مطلب. نمونه‌های قابل توجه شامل کلماتی مانند: “delves”کاوش می‌کند، “potential”پتانسیل، “intricate” پیچیده، “meticulously” با دقت، “crucial” حیاتی، “significant” مهم و “insights” بینش‌ها بودند (نمودار ۲).

محققان می‌گویند که محتمل‌ترین دلیل برای این افزایش، کمک گرفتن از LLM‌ها است. وقتی آن‌ها سهم چکیده‌هایی را که حداقل یکی از این کلمات اضافی را استفاده کرده بودند، به جز کلماتی که به طور گسترده‌ای استفاده می‌شوند، برآورد کردند، متوجه شدند که حداقل ۱۰٪ از مقالات احتمالاً از LLM ها استفاده کرده‌اند. با توجه به اینکه PubMed سالانه حدود ۱.۵ میلیون مقاله را اندیکس می‌کند، این به این معنا است که بیش از ۱۵۰،۰۰۰ مقاله در سال با کمک LLM نوشته می‌شوند.

این به نظر می‌رسد در برخی حوزه‌ها بیشتر رایج باشد. محققان دریافتند که دارای بیشترین استفاده در علوم کامپیوتر، با بیش از ۲۰٪، در حالی که اکولوژی کمترین بود، با حد پایین زیر ۵٪. همچنین تفاوت‌های جغرافیایی نیز مشاهده شد: دانشمندان تایوان، کره جنوبی، اندونزی و چین بیشترین استفاده را از LLMها داشتند. دانشمندان بریتانیا و نیوزیلند نیز کمترین استفاده را داشتند (نمودار ۳).

محققان دیگر کشورهای انگلیسی‌زبان نیز به ندرت از LLM استفاده کرده‌اند. ژورنال‌های مختلف نیز نتایج مختلفی نشان دادند. ژورنال‌های خانواده Nature و همچنین نشریات معتبر دیگر مانند Science و Cell به نظر می‌رسد که نرخ کمک LLM پایینی دارند (زیر ۱۰٪)، در حالی که Sensors (یک ژورنال درباره سنسورها)، بیش از ۲۴٪ بود.

نتایج روش واژگان اضافی با نتایج الگوریتم‌های تشخیص قدیمی‌تر که نمونه‌های کوچکتری از منابع محدودتر را بررسی کرده بودند، تقریباً همخوانی دارند. برای مثال، در یک پیش‌نویس منتشر شده در آوریل ۲۰۲۴، تیمی از دانشگاه استنفورد دریافتند که احتمالاً ۱۷.۵٪ از جملات در چکیده‌های علوم کامپیوتر توسط LLM تولید شده‌اند. آن‌ها همچنین یافتند که شیوع کمتری در نشریات Nature و مقالات ریاضی وجود دارد. LLM‌ها در ریاضیات بسیار ضعیف هستند. واژگان اضافی شناسایی شده نیز با فهرست‌های موجود از کلمات مشکوک همخوانی دارد.

چنین نتایجی نباید خیلی شگفت‌آور باشد. محققان به‌طور معمول استفاده از LLM‌ها برای نگارش مقالات را تأیید می‌کنند. در یک نظرسنجی از ۱۶۰۰ پژوهشگر که در سپتامبر ۲۰۲۳ انجام شد، بیش از ۲۵٪ به Nature گفتند که از LLM‌ها برای نوشتن متون استفاده می‌کنند.

بزرگترین مزیت استفاده از هوش مصنوعی در مطالعه یا نگارش مقاله، کمک به ویرایش و ترجمه برای افرادی بود که انگلیسی زبان مادری‌شان نیست. کدنویسی سریع‌تر و آسان‌تر در جایگاه دوم قرار داشت، به همراه ساده‌سازی وظایف اداری؛ خلاصه‌سازی یا جستجو در ادبیات علمی؛ و جالب‌تر آن، سرعت بخشیدن به نگارش مقالات پژوهشی بود.

با وجود همه این مزایا، استفاده از LLM‌ها برای نوشتن مقالات بدون خطر نیست. مقالات علمی براساس ارتباط دقیق از عدم قطعیت‌ها تکیه دارند، مثالاً، که در اینجا توانایی‌های LLM‌ها همچنان مبهم باقی مانده است. هذیان‌گویی، جایی که LLM‌ها با اعتماد به نفس خیالات را مطرح می‌کنند، همچنان رایج است. همانطور که باز تولید کلمات دیگران بدون نقل قول مستقیم و بدون انتساب نیز رایج است.

مطالعات نشان می‌دهند که مدل‌های زبانی بزرگ (LLMs) تمایل دارند مقالاتی را ارجاع دهند که در یک حوزه به‌طور گسترده‌ای مورد استناد قرار گرفته‌اند. این موضوع ممکن است باعث تقویت تعصبات موجود و محدود کردن خلاقیت شود.

به‌عنوان الگوریتم‌ها، نمی‌توان آن‌ها را به عنوان نویسنده در مقالات فهرست کرد یا برای اشتباهات مسئول دانست. شاید نگران‌کننده‌ترین موضوع این است که سرعتی که LLM‌ها می‌توانند متون مختلف را تولید کنند، ریسک پر کردن دنیای علمی با انتشارات کم‌کیفیت را افزایش می‌دهد.

سیاست‌های دانشگاهی در مورد استفاده از LLM‌ها در حال تغییر است. برخی از ژورنال‌ها به صورت کامل آن را ممنوع کرده‌اند. برخی دیگر نظر خود را تغییر داده‌اند. تا نوامبر ۲۰۲۳، مجله Science تمام متن‌های تولید شده توسط LLM‌ها را به عنوان سرقت ادبی برچسب‌گذاری می‌کرد و می‌گفت:« در نهایت محصول باید از و توسط کامپیوترهای شگفت‌انگیز در سر ما به دست آید و بیان شود.»

آن‌ها از آن زمان سیاست خود را اصلاح کرده‌اند: اکنون اگر یادداشت‌های دقیقی در مورد نحوه استفاده از آن‌ها در بخش روش مقالات و همچنین در نامه‌های همراه ارائه شود.، متن‌های تولید شده با LLM مجاز است. مجلات Nature و Cell نیز استفاده از آن را مجاز می‌دانند، به شرط اینکه به‌وضوح اعلام شود.

اینکه چنین سیاست‌هایی چقدر قابل اجرا خواهند بود، مشخص نیست. در حال حاضر، هیچ روش قابل اعتمادی برای کشف متن LLM وجود ندارد. حتی روش واژگان اضافی نیز، اگرچه برای شناسایی روندهای بزرگ مقیاس مفید است، نمی‌تواند بگوید که آیا یک چکیده خاص از ورودی LLM استفاده کرده است یا خیر. و محققان تنها نیاز دارند که از برخی کلمات خاص دوری کنند تا به‌کلی از روش های معمول تشخیص فرار کنند. همان‌طور که پیش‌نویس جدید بیان می‌کند، این‌ها چالش‌هایی هستند که باید با دقت تمام مورد بررسی قرار گیرند.

7 مرداد 1403

0 20 زمان تقریبی مطالعه 6 دقیقه