شرکت OpenAI مدلهای جدید o3 را معرفی کرد
شرکت OpenAI بزرگترین اعلامیه خود را برای آخرین روز رویداد ۱۲ روزه «Shipmas» نگه داشت.
روز جمعه، این شرکت از مدل o3 رونمایی کرد که جانشین مدل o1 با تمرکز بر «استدلال» است که اوایل امسال عرضه شده بود. به طور دقیقتر، o3 یک خانواده مدل محسوب میشود، درست مشابه با o1. این خانواده شامل مدلهای o3 و o3-mini است؛ مدل کوچکتر و تقطیرشدهای که برای وظایف خاص بهطور ویژه آموزش داده شده است.
OpenAI ادعای شگفتانگیزی مطرح کرده که طبق آن، مدل o3، حداقل تحت شرایطی خاص، به سطح هوش مصنوعی عمومی (AGI) نزدیک میشود—البته با محدودیتهای قابل توجهی که در ادامه توضیح داده خواهند شد.
چرا مدل جدید o3 نامگذاری شده و نه o2؟ دلیل آن ممکن است به مسائل مرتبط با علائم تجاری برگردد. به گزارش The Information، OpenAI از نامگذاری o2 صرفنظر کرد تا از بروز احتمالی اختلاف با شرکت مخابراتی بریتانیایی O2 جلوگیری کند. سم آلتمَن، مدیرعامل این شرکت، صبح امروز در یک پخش زنده تا حدی این موضوع را تأیید کرد. دنیای عجیبی داریم، نه؟
هنوز هیچیک از مدلهای o3 و o3-mini به صورت عمومی در دسترس نیستند، اما پژوهشگران حوزه ایمنی میتوانند از امروز برای پیشنمایش مدل o3-mini ثبتنام کنند. پیشنمایش مدل o3 نیز مدتی بعد ارائه خواهد شد، هرچند OpenAI زمان دقیقی اعلام نکرده است. آلتمَن بیان کرد که برنامه این است که o3-mini تا پایان ژانویه عرضه شود و پس از آن مدل o3 ارائه گردد.
این اظهارات کمی با بیانیههای اخیر او تناقض دارد. آلتمَن در مصاحبهای این هفته گفته بود که پیش از عرضه مدلهای جدید استدلالی، ترجیح میدهد چارچوبی فدرال برای آزمون و ارزیابی این مدلها وجود داشته باشد تا بتوان نظارت و کاهش ریسکهای مرتبط را بهتر مدیریت کرد.
و این ریسکها واقعی هستند. آزمایشکنندگان ایمنی هوش مصنوعی دریافتهاند که تواناییهای استدلالی مدل o1 باعث میشود این مدل نسبت به مدلهای معمولی و «غیر استدلالی» یا حتی مدلهای برتر از شرکتهایی مانند متا، آنتروپیک و گوگل، تمایل بیشتری به گمراه کردن کاربران انسانی داشته باشد. ممکن است مدل o3 حتی بیش از نسخه قبلی خود این رفتار را نشان دهد؛ این موضوع زمانی روشن خواهد شد که شرکای تیم تست OpenAI نتایج آزمایشهای خود را منتشر کنند.
در این میان، OpenAI اعلام کرده که از تکنیک جدیدی به نام «همراستاسازی هدفمند» برای همراستا کردن مدلهایی مانند o3 با اصول ایمنی خود استفاده میکند. (مدل o1 نیز به همین روش همراستا شده بود.) این شرکت جزئیات این فرآیند را در یک مطالعه جدید ارائه کرده است.
مراحل استدلال
برخلاف بیشتر مدلهای هوش مصنوعی، مدلهای استدلالی مانند o3 عملاً خودشان را بررسی میکنند. این فرآیند به آنها کمک میکند تا از برخی مشکلاتی که معمولاً سایر مدلها با آن مواجه میشوند، اجتناب کنند.
البته این فرآیند بررسی حقایق باعث افزایش تأخیر در پاسخدهی میشود. مشابه مدل o1، مدل o3 نیز برای رسیدن به پاسخ کمی بیشتر از مدلهای معمولی – از چند ثانیه تا چند دقیقه – زمان نیاز دارد. اما مزیت آن چیست؟ این مدلها معمولاً در حوزههایی مانند فیزیک، علوم و ریاضیات از دقت بیشتری برخوردارند.
مدل o3 با استفاده از یادگیری تقویتی آموزش دیده تا قبل از پاسخ دادن، “تفکر” کند؛ فرآیندی که OpenAI از آن به عنوان “زنجیره خصوصی تفکر” یاد میکند. این مدل میتواند یک وظیفه را تحلیل کرده و از قبل برنامهریزی کند، و طی یک سری اقدامات طولانیتر، راهحلی را بیابد.
در عمل، زمانی که یک ورودی به مدل داده میشود، o3 پیش از پاسخدهی مکث کرده و مجموعهای از ورودیهای مرتبط را در نظر میگیرد و در طول مسیر، منطق خود را توضیح میدهد. پس از مدتی، مدل خلاصهای از پاسخی که به نظرش دقیقترین است را ارائه میکند.
ویژگی جدید مدل o3 نسبت به o1، امکان “تنظیم” زمان استدلال است. این مدلها را میتوان روی حالتهای کم، متوسط یا زیاد (یعنی زمان پردازش) تنظیم کرد. هرچه زمان پردازش بیشتر باشد، عملکرد o3 در انجام یک وظیفه بهتر خواهد بود.
با این حال، حتی با وجود زمان پردازش بیشتر، مدلهای استدلالی مانند o3 بیعیب و نقص نیستند. اگرچه قابلیت استدلال میتواند خطاها و اشتباهات را کاهش دهد، اما به طور کامل آنها را حذف نمیکند. به عنوان مثال، مدل o1 در بازیهایی مانند دوز دچار اشتباه میشود.
ارزیابیها و AGI
یکی از سؤالات مهم پیش از معرفی مدلهای جدید OpenAI این بود که آیا این شرکت ادعا خواهد کرد که مدلهای جدیدش به AGI نزدیک شدهاند یا خیر.
AGI یا «هوش مصنوعی عمومی» به طور کلی به سیستمی از هوش مصنوعی اشاره دارد که میتواند هر وظیفهای را که یک انسان قادر به انجام آن است، انجام دهد. OpenAI تعریف خاص خود را از AGI دارد: «سیستمهای بسیار خودمختار که در اکثر کارهای اقتصادی ارزشمند، عملکردی بهتر از انسان دارند.»
دستیابی به AGI یک اعلامیه جسورانه محسوب میشود و برای OpenAI اهمیت قراردادی نیز دارد. بر اساس شرایط همکاری این شرکت با مایکروسافت، زمانی که OpenAI به AGI دست یابد، دیگر ملزم به ارائه دسترسی به پیشرفتهترین فناوریهای خود (آنهایی که مطابق تعریف OpenAI از AGI هستند) به مایکروسافت نخواهد بود.
براساس یک معیار ارزیابی، OpenAI به تدریج در حال نزدیک شدن به AGI است. در آزمون ARC-AGI، که برای ارزیابی توانایی سیستمهای هوش مصنوعی در یادگیری کارآمد مهارتهای جدید خارج از دادههای آموزشی طراحی شده است، مدل o3 توانست در حالت پردازش بالا (high compute) امتیاز ۸۷.۵٪ را کسب کند. حتی در بدترین حالت (حالت پردازش پایین)، عملکرد این مدل سه برابر بهتر از مدل o1 بود.
البته، حالت پردازش بالا بسیار هزینهبر بود—طبق گفته فرانسوا شوله، یکی از سازندگان ARC-AGI، هزینه هر چالش در این حالت به هزاران دلار میرسید.
محدودیتها و عملکرد o3 در آزمونها
فرانسوا شوله همچنین اشاره کرده که مدل o3 در انجام «وظایف بسیار ساده» در آزمون ARC-AGI شکست میخورد، که به گفته او نشاندهنده «تفاوتهای بنیادی» این مدل با هوش انسانی است. او پیشتر به محدودیتهای این آزمون اشاره کرده و هشدار داده بود که استفاده از آن به عنوان معیاری برای ارزیابی هوش فوق بشری هوش مصنوعی مناسب نیست.
شوله در بیانیهای ادامه داد: «شواهد اولیه نشان میدهند که نسخه بعدی [جانشین ARC-AGI] همچنان چالشی جدی برای مدل o3 خواهد بود و ممکن است امتیاز آن حتی در حالت پردازش بالا به زیر ۳۰ درصد کاهش یابد، در حالی که یک انسان باهوش بدون هیچ آموزشی میتواند امتیازی بالای ۹۵ درصد کسب کند. زمانی میتوان گفت AGI بهطور واقعی محقق شده که ایجاد وظایفی که برای انسانهای عادی آسان اما برای هوش مصنوعی دشوار باشد، به کلی غیرممکن شود.»
در همین راستا، OpenAI اعلام کرده که با بنیاد سازنده ARC-AGI همکاری خواهد کرد تا نسل بعدی این معیار ارزیابی، یعنی ARC-AGI 2، را توسعه دهد.
دستاوردهای o3 در سایر آزمونها
در سایر معیارها، مدل o3 عملکرد چشمگیری داشته است.
این مدل در آزمون SWE-Bench Verified، که بر وظایف برنامهنویسی تمرکز دارد، ۲۲.۸ امتیاز درصد بیشتر از مدل o1 کسب کرده است. همچنین در ارزیابی Codeforces، که مهارتهای کدنویسی را میسنجد، امتیاز ۲۷۲۷ را به دست آورده است (برای مقایسه، امتیاز ۲۴۰۰ یک مهندس را در صدک ۹۹.۲ قرار میدهد).
مدل o3 در آزمون ریاضیات American Invitational Mathematics Exam 2024 با امتیاز ۹۶.۷٪ تنها یک سؤال را اشتباه پاسخ داده و در آزمون GPQA Diamond، شامل پرسشهای زیستشناسی، فیزیک و شیمی در سطح تحصیلات تکمیلی، امتیاز ۸۷.۷٪ کسب کرده است.
در نهایت، مدل o3 رکورد جدیدی در آزمون EpochAI’s Frontier Math ثبت کرده و توانسته ۲۵.۲٪ از مسائل را حل کند؛ در حالی که هیچ مدل دیگری نتوانسته بیش از ۲٪ را حل کند.
البته، این ادعاها باید با احتیاط در نظر گرفته شوند. این نتایج بر اساس ارزیابیهای داخلی OpenAI ارائه شدهاند. برای ارزیابی دقیقتر، باید منتظر نتایج آزمونهای مستقل از سوی مشتریان و سازمانهای دیگر در آینده باشیم.
روندی نوظهور
پس از معرفی نخستین سری از مدلهای استدلالی OpenAI، شاهد موجی از مدلهای استدلالی از سوی شرکتهای رقیب، از جمله گوگل، بودهایم. در اوایل نوامبر، شرکت تحقیقاتی DeepSeek، که توسط معاملهگران الگوریتمی تأمین مالی میشود، نسخه پیشنمایش اولین مدل استدلالی خود با نام DeepSeek-R1 را منتشر کرد. در همان ماه، تیم Qwen شرکت علیبابا نیز مدلی را معرفی کرد که به گفته آنها اولین رقیب “باز” برای مدل o1 محسوب میشود (به این معنا که قابل دانلود، تنظیم و اجرا به صورت محلی است).
چه چیزی باعث گشایش این سیل مدلهای استدلالی شد؟ یکی از دلایل، جستجو برای روشهای نوآورانه در بهبود هوش مصنوعی مولد است. همانطور که TechCrunch اخیراً گزارش داد، تکنیکهای “قدرت خام” برای افزایش مقیاس مدلها دیگر به اندازه گذشته نتیجهبخش نیستند.
با این حال، همه معتقد نیستند که مدلهای استدلالی بهترین مسیر پیش رو هستند. یکی از دلایل آن هزینه بالای این مدلها است که به دلیل نیاز به قدرت پردازشی زیاد، گران تمام میشوند. همچنین، با وجود عملکرد قوی آنها در آزمونهای ارزیابی، هنوز مشخص نیست که آیا این مدلها میتوانند این نرخ پیشرفت را حفظ کنند یا خیر.
جالب اینجاست که عرضه مدل o3 همزمان شده با جدایی یکی از برجستهترین دانشمندان OpenAI. الک ردفورد، نویسنده اصلی مقاله علمی که آغازگر سری مدلهای GPT این شرکت (شامل GPT-3، GPT-4 و مدلهای بعدی) بود، این هفته اعلام کرد که برای پیگیری تحقیقات مستقل، OpenAI را ترک میکند.