اخبار هوش مصنوعی جهانیمعرفی محصولات

شرکت OpenAI مدل‌های جدید o3 را معرفی کرد

شرکت OpenAI بزرگ‌ترین اعلامیه خود را برای آخرین روز رویداد ۱۲ روزه «Shipmas» نگه داشت.

روز جمعه، این شرکت از مدل o3 رونمایی کرد که جانشین مدل o1 با تمرکز بر «استدلال» است که اوایل امسال عرضه شده بود. به طور دقیق‌تر، o3 یک خانواده مدل محسوب می‌شود، درست مشابه با o1. این خانواده شامل مدل‌های o3 و o3-mini است؛ مدل کوچک‌تر و تقطیرشده‌ای که برای وظایف خاص به‌طور ویژه آموزش داده شده است.

OpenAI ادعای شگفت‌انگیزی مطرح کرده که طبق آن، مدل o3، حداقل تحت شرایطی خاص، به سطح هوش مصنوعی عمومی (AGI) نزدیک می‌شود—البته با محدودیت‌های قابل توجهی که در ادامه توضیح داده خواهند شد.

گرگ براکمن هوش مصنوعی عمومی

چرا مدل جدید o3 نامگذاری شده و نه o2؟ دلیل آن ممکن است به مسائل مرتبط با علائم تجاری برگردد. به گزارش The Information، OpenAI از نام‌گذاری o2 صرف‌نظر کرد تا از بروز احتمالی اختلاف با شرکت مخابراتی بریتانیایی O2 جلوگیری کند. سم آلتمَن، مدیرعامل این شرکت، صبح امروز در یک پخش زنده تا حدی این موضوع را تأیید کرد. دنیای عجیبی داریم، نه؟

هنوز هیچ‌یک از مدل‌های o3 و o3-mini به صورت عمومی در دسترس نیستند، اما پژوهشگران حوزه ایمنی می‌توانند از امروز برای پیش‌نمایش مدل o3-mini ثبت‌نام کنند. پیش‌نمایش مدل o3 نیز مدتی بعد ارائه خواهد شد، هرچند OpenAI زمان دقیقی اعلام نکرده است. آلتمَن بیان کرد که برنامه این است که o3-mini تا پایان ژانویه عرضه شود و پس از آن مدل o3 ارائه گردد.

این اظهارات کمی با بیانیه‌های اخیر او تناقض دارد. آلتمَن در مصاحبه‌ای این هفته گفته بود که پیش از عرضه مدل‌های جدید استدلالی، ترجیح می‌دهد چارچوبی فدرال برای آزمون و ارزیابی این مدل‌ها وجود داشته باشد تا بتوان نظارت و کاهش ریسک‌های مرتبط را بهتر مدیریت کرد.

و این ریسک‌ها واقعی هستند. آزمایش‌کنندگان ایمنی هوش مصنوعی دریافته‌اند که توانایی‌های استدلالی مدل o1 باعث می‌شود این مدل نسبت به مدل‌های معمولی و «غیر استدلالی» یا حتی مدل‌های برتر از شرکت‌هایی مانند متا، آنتروپیک و گوگل، تمایل بیشتری به گمراه کردن کاربران انسانی داشته باشد. ممکن است مدل o3 حتی بیش از نسخه قبلی خود این رفتار را نشان دهد؛ این موضوع زمانی روشن خواهد شد که شرکای تیم تست OpenAI نتایج آزمایش‌های خود را منتشر کنند.

در این میان، OpenAI اعلام کرده که از تکنیک جدیدی به نام «هم‌راستاسازی هدفمند» برای هم‌راستا کردن مدل‌هایی مانند o3 با اصول ایمنی خود استفاده می‌کند. (مدل o1 نیز به همین روش هم‌راستا شده بود.) این شرکت جزئیات این فرآیند را در یک مطالعه جدید ارائه کرده است.

مراحل استدلال

برخلاف بیشتر مدل‌های هوش مصنوعی، مدل‌های استدلالی مانند o3 عملاً خودشان را بررسی می‌کنند. این فرآیند به آن‌ها کمک می‌کند تا از برخی مشکلاتی که معمولاً سایر مدل‌ها با آن مواجه می‌شوند، اجتناب کنند.

البته این فرآیند بررسی حقایق باعث افزایش تأخیر در پاسخ‌دهی می‌شود. مشابه مدل o1، مدل o3 نیز برای رسیدن به پاسخ کمی بیشتر از مدل‌های معمولی – از چند ثانیه تا چند دقیقه – زمان نیاز دارد. اما مزیت آن چیست؟ این مدل‌ها معمولاً در حوزه‌هایی مانند فیزیک، علوم و ریاضیات از دقت بیشتری برخوردارند.

مدل o3 با استفاده از یادگیری تقویتی آموزش دیده تا قبل از پاسخ دادن، “تفکر” کند؛ فرآیندی که OpenAI از آن به عنوان “زنجیره خصوصی تفکر” یاد می‌کند. این مدل می‌تواند یک وظیفه را تحلیل کرده و از قبل برنامه‌ریزی کند، و طی یک سری اقدامات طولانی‌تر، راه‌حلی را بیابد.

در عمل، زمانی که یک ورودی به مدل داده می‌شود، o3 پیش از پاسخ‌دهی مکث کرده و مجموعه‌ای از ورودی‌های مرتبط را در نظر می‌گیرد و در طول مسیر، منطق خود را توضیح می‌دهد. پس از مدتی، مدل خلاصه‌ای از پاسخی که به نظرش دقیق‌ترین است را ارائه می‌کند.

ویژگی جدید مدل o3 نسبت به o1، امکان “تنظیم” زمان استدلال است. این مدل‌ها را می‌توان روی حالت‌های کم، متوسط یا زیاد (یعنی زمان پردازش) تنظیم کرد. هرچه زمان پردازش بیشتر باشد، عملکرد o3 در انجام یک وظیفه بهتر خواهد بود.

با این حال، حتی با وجود زمان پردازش بیشتر، مدل‌های استدلالی مانند o3 بی‌عیب و نقص نیستند. اگرچه قابلیت استدلال می‌تواند خطاها و اشتباهات را کاهش دهد، اما به طور کامل آن‌ها را حذف نمی‌کند. به عنوان مثال، مدل o1 در بازی‌هایی مانند دوز دچار اشتباه می‌شود.

ارزیابی‌ها و AGI

یکی از سؤالات مهم پیش از معرفی مدل‌های جدید OpenAI این بود که آیا این شرکت ادعا خواهد کرد که مدل‌های جدیدش به AGI نزدیک شده‌اند یا خیر.

AGI یا «هوش مصنوعی عمومی» به طور کلی به سیستمی از هوش مصنوعی اشاره دارد که می‌تواند هر وظیفه‌ای را که یک انسان قادر به انجام آن است، انجام دهد. OpenAI تعریف خاص خود را از AGI دارد: «سیستم‌های بسیار خودمختار که در اکثر کارهای اقتصادی ارزشمند، عملکردی بهتر از انسان دارند.»

دستیابی به AGI یک اعلامیه جسورانه محسوب می‌شود و برای OpenAI اهمیت قراردادی نیز دارد. بر اساس شرایط همکاری این شرکت با مایکروسافت، زمانی که OpenAI به AGI دست یابد، دیگر ملزم به ارائه دسترسی به پیشرفته‌ترین فناوری‌های خود (آن‌هایی که مطابق تعریف OpenAI از AGI هستند) به مایکروسافت نخواهد بود.

براساس یک معیار ارزیابی، OpenAI به تدریج در حال نزدیک شدن به AGI است. در آزمون ARC-AGI، که برای ارزیابی توانایی سیستم‌های هوش مصنوعی در یادگیری کارآمد مهارت‌های جدید خارج از داده‌های آموزشی طراحی شده است، مدل o3 توانست در حالت پردازش بالا (high compute) امتیاز ۸۷.۵٪ را کسب کند. حتی در بدترین حالت (حالت پردازش پایین)، عملکرد این مدل سه برابر بهتر از مدل o1 بود.

البته، حالت پردازش بالا بسیار هزینه‌بر بود—طبق گفته فرانسوا شوله، یکی از سازندگان ARC-AGI، هزینه هر چالش در این حالت به هزاران دلار می‌رسید.

محدودیت‌ها و عملکرد o3 در آزمون‌ها

فرانسوا شوله همچنین اشاره کرده که مدل o3 در انجام «وظایف بسیار ساده» در آزمون ARC-AGI شکست می‌خورد، که به گفته او نشان‌دهنده «تفاوت‌های بنیادی» این مدل با هوش انسانی است. او پیش‌تر به محدودیت‌های این آزمون اشاره کرده و هشدار داده بود که استفاده از آن به عنوان معیاری برای ارزیابی هوش فوق بشری هوش مصنوعی مناسب نیست.

شوله در بیانیه‌ای ادامه داد: «شواهد اولیه نشان می‌دهند که نسخه بعدی [جانشین ARC-AGI] همچنان چالشی جدی برای مدل o3 خواهد بود و ممکن است امتیاز آن حتی در حالت پردازش بالا به زیر ۳۰ درصد کاهش یابد، در حالی که یک انسان باهوش بدون هیچ آموزشی می‌تواند امتیازی بالای ۹۵ درصد کسب کند. زمانی می‌توان گفت AGI به‌طور واقعی محقق شده که ایجاد وظایفی که برای انسان‌های عادی آسان اما برای هوش مصنوعی دشوار باشد، به کلی غیرممکن شود.»

در همین راستا، OpenAI اعلام کرده که با بنیاد سازنده ARC-AGI همکاری خواهد کرد تا نسل بعدی این معیار ارزیابی، یعنی ARC-AGI 2، را توسعه دهد.

دستاوردهای o3 در سایر آزمون‌ها

در سایر معیارها، مدل o3 عملکرد چشمگیری داشته است.

این مدل در آزمون SWE-Bench Verified، که بر وظایف برنامه‌نویسی تمرکز دارد، ۲۲.۸ امتیاز درصد بیشتر از مدل o1 کسب کرده است. همچنین در ارزیابی Codeforces، که مهارت‌های کدنویسی را می‌سنجد، امتیاز ۲۷۲۷ را به دست آورده است (برای مقایسه، امتیاز ۲۴۰۰ یک مهندس را در صدک ۹۹.۲ قرار می‌دهد).

مدل o3 در آزمون ریاضیات American Invitational Mathematics Exam 2024 با امتیاز ۹۶.۷٪ تنها یک سؤال را اشتباه پاسخ داده و در آزمون GPQA Diamond، شامل پرسش‌های زیست‌شناسی، فیزیک و شیمی در سطح تحصیلات تکمیلی، امتیاز ۸۷.۷٪ کسب کرده است.

در نهایت، مدل o3 رکورد جدیدی در آزمون EpochAI’s Frontier Math ثبت کرده و توانسته ۲۵.۲٪ از مسائل را حل کند؛ در حالی که هیچ مدل دیگری نتوانسته بیش از ۲٪ را حل کند.

البته، این ادعاها باید با احتیاط در نظر گرفته شوند. این نتایج بر اساس ارزیابی‌های داخلی OpenAI ارائه شده‌اند. برای ارزیابی دقیق‌تر، باید منتظر نتایج آزمون‌های مستقل از سوی مشتریان و سازمان‌های دیگر در آینده باشیم.

روندی نوظهور

پس از معرفی نخستین سری از مدل‌های استدلالی OpenAI، شاهد موجی از مدل‌های استدلالی از سوی شرکت‌های رقیب، از جمله گوگل، بوده‌ایم. در اوایل نوامبر، شرکت تحقیقاتی DeepSeek، که توسط معامله‌گران الگوریتمی تأمین مالی می‌شود، نسخه پیش‌نمایش اولین مدل استدلالی خود با نام DeepSeek-R1 را منتشر کرد. در همان ماه، تیم Qwen شرکت علی‌بابا نیز مدلی را معرفی کرد که به گفته آن‌ها اولین رقیب “باز” برای مدل o1 محسوب می‌شود (به این معنا که قابل دانلود، تنظیم و اجرا به صورت محلی است).

چه چیزی باعث گشایش این سیل مدل‌های استدلالی شد؟ یکی از دلایل، جستجو برای روش‌های نوآورانه در بهبود هوش مصنوعی مولد است. همان‌طور که TechCrunch اخیراً گزارش داد، تکنیک‌های “قدرت خام” برای افزایش مقیاس مدل‌ها دیگر به اندازه گذشته نتیجه‌بخش نیستند.

با این حال، همه معتقد نیستند که مدل‌های استدلالی بهترین مسیر پیش رو هستند. یکی از دلایل آن هزینه بالای این مدل‌ها است که به دلیل نیاز به قدرت پردازشی زیاد، گران تمام می‌شوند. همچنین، با وجود عملکرد قوی آن‌ها در آزمون‌های ارزیابی، هنوز مشخص نیست که آیا این مدل‌ها می‌توانند این نرخ پیشرفت را حفظ کنند یا خیر.

جالب اینجاست که عرضه مدل o3 همزمان شده با جدایی یکی از برجسته‌ترین دانشمندان OpenAI. الک ردفورد، نویسنده اصلی مقاله علمی که آغازگر سری مدل‌های GPT این شرکت (شامل GPT-3، GPT-4 و مدل‌های بعدی) بود، این هفته اعلام کرد که برای پیگیری تحقیقات مستقل، OpenAI را ترک می‌کند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *