رونمایی از مدل o1 از سوی OpenAI
OpenAI مدل جدیدی به نام o1 عرضه میکند که اولین مدل در یک سری برنامهریزی شده از مدلهای «استدلال» است. این مدلها برای پاسخ به سوالات پیچیدهتر، سریعتر از انسان آموزش دیدهاند. همچنین یک نسخه کوچکتر و ارزانتر به نام o1-mini نیز عرضه شده است. بله، اگر شایعات دنیای هوش مصنوعی را دنبال میکنید، این همان مدل پر سر و صدای Strawberry است.
برای OpenAI، مدل o1 گامی به سوی هدف بزرگتر هوش مصنوعی شبیه به انسان محسوب میشود. به طور عملی، این مدل در نوشتن کد و حل مسائل چندمرحلهای نسبت به مدلهای قبلی عملکرد بهتری دارد. با این حال، استفاده از آن نسبت به GPT-4o گرانتر و کندتر است. OpenAI این نسخه از o1 را به عنوان یک «پیشنمایش» معرفی کرده است تا نشان دهد که این مدل هنوز در مراحل اولیه توسعه قرار دارد.
از امروز، کاربران ChatGPT Plus و Team به هر دو مدل o1-preview و o1-mini دسترسی خواهند داشت، در حالی که کاربران Enterprise و Edu اوایل هفته آینده به این مدلها دسترسی پیدا میکنند. OpenAI اعلام کرده است که قصد دارد دسترسی به o1-mini را برای تمام کاربران ChatGPT به رایگان فراهم کند، اما هنوز تاریخ عرضه دقیقی تعیین نشده است. دسترسی توسعهدهندگان به o1 بسیار گران است: در API، هزینه o1-preview برابر با ۱۵ دلار برای هر ۱ میلیون توکن ورودی (که به تکههای متنی که مدل پردازش میکند اشاره دارد) و ۶۰ دلار برای هر ۱ میلیون توکن خروجی است. برای مقایسه، هزینه GPT-4o برابر با ۵ دلار برای هر ۱ میلیون توکن ورودی و ۱۵ دلار برای هر ۱ میلیون توکن خروجی است.
رئیس تیم تحقیقات OpenAI، جری توورک، میگوید که آموزش مدل o1 بهطور اساسی با مدلهای قبلی متفاوت است، هرچند که شرکت در مورد جزئیات دقیق آن اطلاعات روشنی ارائه نمیدهد. او میگوید که o1 «با استفاده از یک الگوریتم بهینهسازی کاملاً جدید و یک مجموعه داده آموزشی جدید که بهطور خاص برای این مدل طراحی شده، آموزش دیده است.»
OpenAI مدلهای GPT قبلی را طوری آموزش داده بود که الگوهای موجود در دادههای آموزشی خود را تقلید کنند. اما با مدل o1، این شرکت از روشی به نام «یادگیری تقویتی» استفاده کرده است که به سیستم از طریق پاداشها و مجازاتها آموزش میدهد تا مسائل را بهصورت مستقل حل کند. سپس از روشی به نام «زنجیره تفکر» برای پردازش سوالات استفاده میکند، مشابه با روشی که انسانها مسائل را به صورت مرحله به مرحله حل میکنند.
به دلیل این روش جدید آموزشی، OpenAI معتقد است که مدل باید دقت بیشتری داشته باشد. توورک میگوید: «ما متوجه شدیم که این مدل کمتر دچار توهم میشود. ما نمیتوانیم بگوییم که مشکل توهمات را حل کردهایم.»
نکته اصلی که این مدل جدید را از GPT-4o متمایز میکند، توانایی آن در حل مسائل پیچیده مانند کدنویسی و ریاضیات است. همچنین این مدل میتواند دلایل استدلال خود را توضیح دهد، که نسبت به مدلهای قبلی بهبود چشمگیری محسوب میشود.
رئیس بخش تحقیقات OpenAI، باب مکگرو، میگوید: «این مدل قطعاً در حل آزمون ریاضی AP بهتر از من عمل میکند، در حالی که من در دوران دانشگاه در رشته ریاضی تحصیل کردهام.»
او اشاره میکند که OpenAI مدل o1 را در برابر یک آزمون مقدماتی برای المپیاد جهانی ریاضی نیز آزمایش کرده است، و در حالی که GPT-4o تنها ۱۳ درصد از مسائل را به درستی حل کرد، o1 موفق شد ۸۳ درصد از مسائل را به درستی پاسخ دهد.
در مسابقات برنامهنویسی آنلاین که به عنوان رقابتهای Codeforces شناخته میشوند، این مدل جدید به صدک ۸۹ شرکتکنندگان رسید. OpenAI ادعا میکند که نسخه بعدی این مدل عملکردی مشابه دانشجویان دکتری در آزمونهای سخت در زمینههای فیزیک، شیمی و زیستشناسی خواهد داشت.
با این حال، مدل o1 در بسیاری از زمینهها به اندازه GPT-4o توانمند نیست. این مدل در دانش واقعی درباره جهان عملکرد ضعیفتری دارد. همچنین توانایی مرور وب یا پردازش فایلها و تصاویر را ندارد. با این وجود، OpenAI معتقد است که این مدل نشاندهنده یک کلاس جدید از تواناییها است. این مدل به نام o1 نامگذاری شده است تا مفهوم «بازنشانی شمارنده به ۱» را نشان دهد.
مکگرو میگوید: «صادقانه بگویم: بهطور سنتی فکر میکنم ما در نامگذاری خیلی بد عمل میکنیم. امیدوارم این اولین قدم در جهت نامگذاریهای جدیدتر و منطقیتر باشد که بهتر به بقیه دنیا نشان دهد ما چه کاری انجام میدهیم.»
من نتوانستم مدل o1 را شخصاً امتحان کنم، اما مکگرو و توورک این مدل را از طریق یک تماس ویدیویی به من نشان دادند. آنها از مدل خواستند این معما را حل کند:
«شاهزاده خانم به اندازه سنی است که شاهزاده خواهد داشت زمانی که سن شاهزاده خانم دو برابر سنی باشد که شاهزاده داشت زمانی که سن شاهزاده خانم نصف مجموع سن فعلی آنها بود. سن شاهزاده و شاهزاده خانم چقدر است؟ تمام راهحلهای این سوال را ارائه دهید.»
مدل ۳۰ ثانیه زمان نیاز داشت و سپس پاسخ درست را ارائه داد. OpenAI رابط کاربری را به گونهای طراحی کرده که مراحل استدلال مدل را نشان دهد. چیزی که برای من جالب بود، نه تنها این بود که مدل کار خود را نشان داد— GPT-4o هم در صورت درخواست این کار را انجام میدهد— بلکه نحوهای بود که مدل o1 به طرز چشمگیری تلاش میکرد تا فکر کردن شبیه به انسان را تقلید کند. عباراتی مانند «کنجکاوم بدانم»، «دارم به این فکر میکنم» و «خب، بذار ببینم» یک توهم مرحله به مرحله از فرآیند تفکر ایجاد میکرد.
اما این مدل در واقع فکر نمیکند و قطعاً انسان نیست. پس چرا طراحی شده که اینگونه به نظر برسد؟
به گفته توورک، OpenAI به همسانسازی تفکر مدلهای هوش مصنوعی با تفکر انسانی اعتقادی ندارد. اما رابط کاربری طوری طراحی شده که نشان دهد مدل زمان بیشتری برای پردازش صرف میکند و عمیقتر به حل مسائل میپردازد. او میگوید: «در برخی موارد، احساس میشود این مدل نسبت به مدلهای قبلی انسانیتر است.»
مکگرو میگوید: «فکر میکنم متوجه خواهید شد که در بسیاری از جنبهها این مدل بیگانه به نظر میرسد، اما در برخی موارد هم به طرز شگفتانگیزی انسانی احساس میشود.»
این مدل زمان محدودی برای پردازش سوالات دارد، بنابراین ممکن است چیزی بگوید مانند: «آه، دارم زمانم را از دست میدهم، باید سریعتر به پاسخ برسم.» همچنین در مراحل اولیه «زنجیره تفکر» ممکن است به نظر برسد که در حال طوفان فکری است و عباراتی مانند «میتوانم این کار یا آن کار را انجام دهم، کدام را باید انجام دهم؟»
ساخت بهسوی عاملهای مستقل
مدلهای زبانی بزرگ در وضعیت کنونیشان واقعاً آنقدر هوشمند نیستند. آنها اساساً فقط توالیهای کلمات را پیشبینی میکنند تا بر اساس الگوهای آموخته شده از حجم وسیعی از دادهها به شما پاسخی بدهند. بهعنوان مثال، ChatGPT که معمولاً به اشتباه ادعا میکند که کلمه «strawberry» فقط دو حرف «R» دارد، زیرا کلمه را به درستی تجزیه نمیکند. البته، مدل جدید o1 این سوال را درست پاسخ داد.
با توجه به گزارشهایی مبنی بر تلاش OpenAI برای جذب سرمایه بیشتر با ارزشگذاری چشمگیر ۱۵۰ میلیارد دلاری، پیشرفتهای آینده این شرکت به موفقیتهای تحقیقاتی بیشتر بستگی دارد. OpenAI در حال افزودن قابلیتهای استدلال به مدلهای زبانی بزرگ است، زیرا آیندهای را میبیند که در آن سیستمهای خودمختار یا عاملهایی وجود دارند که قادر به تصمیمگیری و انجام اقدامات به نمایندگی از شما هستند.
برای پژوهشگران هوش مصنوعی، حل مسئله استدلال یک گام مهم به سوی هوش در سطح انسانی است. ایده این است که اگر مدلی بتواند فراتر از تشخیص الگو عمل کند، میتواند دستاوردهای مهمی در حوزههایی مانند پزشکی و مهندسی به ارمغان بیاورد. اما در حال حاضر، تواناییهای استدلالی مدل o1 نسبتاً کند است، شبیه عاملهای خودمختار نیست و استفاده از آن برای توسعهدهندگان گران تمام میشود.
مکگرو میگوید: «ما ماهها وقت صرف کار روی استدلال کردهایم، زیرا فکر میکنیم این واقعاً همان پیشرفت کلیدی است. اساساً این یک روش جدید برای مدلها است تا بتوانند مسائل بسیار سخت را حل کنند، مسائلی که برای پیشرفت به سوی سطوح هوش شبیه به انسان ضروری هستند.»