حداقل ۱۰٪ از تحقیقات علمی با کمک هوش مصنوعی انجام می شوند
هوش مصنوعی مولد ابزار بسیار قدرتمندی برای تولید محتواست. اخیرا با معرفی آخرین نسخه چت جی پی تی، این دسته از ابزاها به توانایی تولید متن غیر قابل تشخیص از متون انسانی دریافته اند. عجیب نیست که بخشی از تحقیقات علمی با کمک هوش مصنوعی انجام شود.
مطلب زیر از اکونومیست، بررسی این موضوع از یک مقاله ی جدید از سایت Arxiv است. با شبکه فناوران همراه باشید.
یکی از مقالات اخیر در مجله علمی Surfaces and Interfaces اینگونه آغاز شده بود:« قطعاً، این میتواند مقدمهای برای موضوع شما باشد…» خوانندگان دقیق شاید تعجب کنند که این جمله عجیب دقیقاً با چه کسی صحبت میکند. آنها ممکن است همچنین تعجب کنند که آیا مقاله بعدی، که در مورد فناوری باتری بود، توسط انسان نوشته شده یا ماشین.
این سوالی است که هر روز بیشتر خوانندگان مقالات علمی از خود میپرسند. مدلهای زبان بزرگ (LLMs) اکنون به اندازهای رشد کرده اند که میتوانند به نوشتن یک مقاله علمی کمک کنند. آنها میتوانند به نثر علمی خشک زندگی ببخشند و روند نگارش را مخصوصاً برای افرادی که انگلیسی زبان مادریشان نیست، تسریع کنند.
البته این استفاده خطراتی هم دارد LLM ها بهطور ویژهای مستعد تکرار سوگیری هستند و میتوانند مقادیر زیادی مزخرفات قابل قبول تولید کنند. اما میزان گستردگی این مسئله مبهم است.
در پیشنویس مقاله ای که اخیراً در arXiv منتشر شده، محققان دانشگاه توبینگن در آلمان و دانشگاه نورثوسترن در آمریکا کمی روشنگری کردهاند. تحقیق آنها، که هنوز مورد بازبینی همتایان قرار نگرفته، نشان میدهد که حداقل یک دهم مقالات علمی جدید حاوی مطالبی است که توسط یک LLM تولید شده است.
این به این معناست که فقط امسال بیش از ۱۰۰،۰۰۰ مقاله از این دست منتشر خواهند شد. و این عدد حد پایین تخمین هاست. در برخی حوزهها، مانند علوم کامپیوتر، برآورد شده که بیش از ۲۰٪ از چکیدههای تحقیقاتی حاوی متنی هستند که توسط LLM تولید شده است. در بین مقالات دانشمندان کامپیوتر چینی، این میزان یک در سه است.
شناسایی متن تولید شده توسط مدلهای زبان بزرگ (LLMs) کار آسانی نیست. محققان معمولاً از یکی از دو روش استفاده میکنند:
- الگوریتمهای تشخیص که برای شناسایی الگوهای نوشتاری انسانی آموزش دیدهاند
- جستجوی کلمات مشکوکی که به طور غیرعادی توسط LLMها مورد استفاده قرار میگیرند، مانند “پیووتال” یا “قلمرو”.
هر دو روش به دادههای حقیقت پایه نیاز دارند. حقیقت پایه مجموعه ای از متون نوشته شده توسط انسان و یک مجموعه از متون نوشته شده توسط ماشین است. جمعآوری این دادهها به طور شگفتآوری سخت است. متنهایی که هم توسط انسان و هم توسط ماشینها تولید میشوند، با گذشت زمان تغییر میکنند. چرا که زبانها تکامل مییابند و مدلها بهروزرسانی میشوند.
علاوه بر آن محققان معمولاً متنهای LLM را با استفاده از دستورات خودشان جمعآوری میکنند، و نحوه انجام این کار ممکن است با رفتار واقعی مصرف کنندگان این مدل ها متفاوت باشد.
تحقیقات اخیر دیمیتری کوباک از دانشگاه توبینگن و همکارانش، یک روش سوم را نشان میدهد که نیاز به دادههای حقیقت پایه را به کلی کنار میگذارد. روش تیم از کارهای جمعیتی در مورد مرگهای اضافی الهام گرفته است. روش اصلی امکان تعیین مرگ و میرهای مرتبط با یک رویداد با مشاهده تفاوتهای بین تعداد مرگهای مورد انتظار و تعداد مشاهدهشده، می دهد.
تحقیقات اخیر دیمیتری کوباک از دانشگاه توبینگن و همکارانش، یک روش سوم را نشان میدهد که نیاز به دادههای حقیقت پایه را به کلی کنار میگذارد. روش تیم از کارهای جمعیتی در مورد مرگهای اضافی الهام گرفته است. روش اصلی امکان تعیین مرگ و میرهای مرتبط با یک رویداد با مشاهده تفاوتهای بین تعداد مرگهای مورد انتظار و تعداد مشاهدهشده، می دهد.
همانطور که روش مرگهای اضافی به دنبال نرخ مرگ و میر غیرعادی است، روش واژگان اضافی آنها به دنبال استفاده غیرعادی از کلمات است. به طور خاص، محققان به دنبال کلماتی بودند که با فرکانسی بسیار بیشتر از آنچه در ادبیات موجود پیشبینی میشود، در چکیدههای علمی ظاهر میشدند (نمودار ۱).
مجموعهای که برای تحلیل انتخاب کردند شامل چکیدههای تقریباً تمام مقالات به زبان انگلیسی موجود در PubMed، یک موتور جستجوی تحقیقات زیستپزشکی، بود که بین ژانویه ۲۰۱۰ تا مارس ۲۰۲۴ منتشر شدهاند، یعنی حدود ۱۴.۲ میلیون مقاله.
محققان دریافتند که در اکثر سالها، استفاده از کلمات نسبتاً پایدار بود: در هیچ سالی بین ۲۰۱۳ تا ۲۰۱۹، افزایش فرکانس کلمات بیش از ۱٪ نبود. این تغییر در سال ۲۰۲۰ مشاهده شد. زمانی که کلماتی مانند “SARS”، “coronavirus”، “pandemic”، “disease”، “patients” و “severe” همه به طور چشمگیری افزایش یافتند. کلمات مرتبط با همه گیری کووید تا سال ۲۰۲۲ همچنان به طور غیرعادی بالایی مورد استفاده قرار گرفتند.
تا اوایل سال ۲۰۲۴، حدود یک سال پس از اینکه مدلهای زبانی بزرگ (LLMs) مانند ChatGPT به طور گسترده در دسترس قرار گرفتند، مجموعهای متفاوت از کلمات محبوب شدند. از بین ۷۷۴ کلمهای که استفاده از آنها بین سالهای ۲۰۱۳ تا ۲۰۲۴ به طور قابل توجهی افزایش یافت، ۳۲۹ کلمه فقط در سه ماه اول سال ۲۰۲۴ اوج گرفتند. ۲۸۰ تا از این کلمات بیشتر به سبک نوشتاری مربوط میشدند تا موضوع مطلب. نمونههای قابل توجه شامل کلماتی مانند: “delves” (کاوش میکند)، “potential” (پتانسیل)، “intricate” (پیچیده)، “meticulously” (با دقت)، “crucial” (حیاتی)، “significant” (مهم) و “insights” (بینشها) بودند (نمودار ۲).
محققان میگویند که محتملترین دلیل برای این افزایش، کمک گرفتن از LLMها است. وقتی آنها سهم چکیدههایی را که حداقل یکی از این کلمات اضافی را استفاده کرده بودند، به جز کلماتی که به طور گستردهای استفاده میشوند، برآورد کردند، متوجه شدند که حداقل ۱۰٪ از مقالات احتمالاً از LLM ها استفاده کردهاند. با توجه به اینکه PubMed سالانه حدود ۱.۵ میلیون مقاله را اندیکس میکند، این به این معنا است که بیش از ۱۵۰،۰۰۰ مقاله در سال با کمک LLM نوشته میشوند.
این به نظر میرسد در برخی حوزهها بیشتر رایج باشد. محققان دریافتند که دارای بیشترین استفاده در علوم کامپیوتر، با بیش از ۲۰٪، در حالی که اکولوژی کمترین بود، با حد پایین زیر ۵٪. همچنین تفاوتهای جغرافیایی نیز مشاهده شد: دانشمندان تایوان، کره جنوبی، اندونزی و چین بیشترین استفاده را از LLMها داشتند. دانشمندان بریتانیا و نیوزیلند نیز کمترین استفاده را داشتند (نمودار ۳).
محققان دیگر کشورهای انگلیسیزبان نیز به ندرت از LLM استفاده کردهاند. ژورنالهای مختلف نیز نتایج مختلفی نشان دادند. ژورنالهای خانواده Nature و همچنین نشریات معتبر دیگر مانند Science و Cell به نظر میرسد که نرخ کمک LLM پایینی دارند (زیر ۱۰٪)، در حالی که Sensors (یک ژورنال درباره سنسورها)، بیش از ۲۴٪ بود.
نتایج روش واژگان اضافی با نتایج الگوریتمهای تشخیص قدیمیتر که نمونههای کوچکتری از منابع محدودتر را بررسی کرده بودند، تقریباً همخوانی دارند. برای مثال، در یک پیشنویس منتشر شده در آوریل ۲۰۲۴، تیمی از دانشگاه استنفورد دریافتند که احتمالاً ۱۷.۵٪ از جملات در چکیدههای علوم کامپیوتر توسط LLM تولید شدهاند. آنها همچنین یافتند که شیوع کمتری در نشریات Nature و مقالات ریاضی وجود دارد. LLMها در ریاضیات بسیار ضعیف هستند. واژگان اضافی شناسایی شده نیز با فهرستهای موجود از کلمات مشکوک همخوانی دارد.
چنین نتایجی نباید خیلی شگفتآور باشد. محققان بهطور معمول استفاده از LLMها برای نگارش مقالات را تأیید میکنند. در یک نظرسنجی از ۱۶۰۰ پژوهشگر که در سپتامبر ۲۰۲۳ انجام شد، بیش از ۲۵٪ به Nature گفتند که از LLMها برای نوشتن متون استفاده میکنند.
بزرگترین مزیت استفاده از هوش مصنوعی در مطالعه یا نگارش مقاله، کمک به ویرایش و ترجمه برای افرادی بود که انگلیسی زبان مادریشان نیست. کدنویسی سریعتر و آسانتر در جایگاه دوم قرار داشت، به همراه سادهسازی وظایف اداری؛ خلاصهسازی یا جستجو در ادبیات علمی؛ و جالبتر آن، سرعت بخشیدن به نگارش مقالات پژوهشی بود.
با وجود همه این مزایا، استفاده از LLMها برای نوشتن مقالات بدون خطر نیست. مقالات علمی براساس ارتباط دقیق از عدم قطعیتها تکیه دارند، مثالاً، که در اینجا تواناییهای LLMها همچنان مبهم باقی مانده است. هذیانگویی، جایی که LLMها با اعتماد به نفس خیالات را مطرح میکنند، همچنان رایج است. همانطور که باز تولید کلمات دیگران بدون نقل قول مستقیم و بدون انتساب نیز رایج است.
مطالعات نشان میدهند که مدلهای زبانی بزرگ (LLMs) تمایل دارند مقالاتی را ارجاع دهند که در یک حوزه بهطور گستردهای مورد استناد قرار گرفتهاند. این موضوع ممکن است باعث تقویت تعصبات موجود و محدود کردن خلاقیت شود.
بهعنوان الگوریتمها، نمیتوان آنها را به عنوان نویسنده در مقالات فهرست کرد یا برای اشتباهات مسئول دانست. شاید نگرانکنندهترین موضوع این است که سرعتی که LLMها میتوانند متون مختلف را تولید کنند، ریسک پر کردن دنیای علمی با انتشارات کمکیفیت را افزایش میدهد.
سیاستهای دانشگاهی در مورد استفاده از LLMها در حال تغییر است. برخی از ژورنالها به صورت کامل آن را ممنوع کردهاند. برخی دیگر نظر خود را تغییر دادهاند. تا نوامبر ۲۰۲۳، مجله Science تمام متنهای تولید شده توسط LLMها را به عنوان سرقت ادبی برچسبگذاری میکرد و میگفت:« در نهایت محصول باید از و توسط کامپیوترهای شگفتانگیز در سر ما به دست آید و بیان شود.»
آنها از آن زمان سیاست خود را اصلاح کردهاند: اکنون اگر یادداشتهای دقیقی در مورد نحوه استفاده از آنها در بخش روش مقالات و همچنین در نامههای همراه ارائه شود.، متنهای تولید شده با LLM مجاز است. مجلات Nature و Cell نیز استفاده از آن را مجاز میدانند، به شرط اینکه بهوضوح اعلام شود.
اینکه چنین سیاستهایی چقدر قابل اجرا خواهند بود، مشخص نیست. در حال حاضر، هیچ روش قابل اعتمادی برای کشف متن LLM وجود ندارد. حتی روش واژگان اضافی نیز، اگرچه برای شناسایی روندهای بزرگ مقیاس مفید است، نمیتواند بگوید که آیا یک چکیده خاص از ورودی LLM استفاده کرده است یا خیر. محققان تنها نیاز دارند که از برخی کلمات خاص دوری کنند تا بهکلی از روش های معمول تشخیص فرار کنند. همانطور که پیشنویس جدید بیان میکند، اینها چالشهایی هستند که باید با دقت تمام مورد بررسی قرار گیرند.