رونمایی از مدل o1 از سوی OpenAI

24 شهریور 1403

0 42 زمان تقریبی مطالعه 5 دقیقه

OpenAI مدل جدیدی به نام o1 عرضه می‌کند که اولین مدل در یک سری برنامه‌ریزی شده از مدل‌های «استدلال» است. این مدل‌ها برای پاسخ به سوالات پیچیده‌تر، سریع‌تر از انسان آموزش دیده‌اند. همچنین یک نسخه کوچک‌تر و ارزان‌تر به نام o1-mini نیز عرضه شده است. بله، اگر شایعات دنیای هوش مصنوعی را دنبال می‌کنید، این همان مدل پر سر و صدای Strawberry است.

برای OpenAI، مدل o1 گامی به سوی هدف بزرگ‌تر هوش مصنوعی شبیه به انسان محسوب می‌شود. به طور عملی، این مدل در نوشتن کد و حل مسائل چندمرحله‌ای نسبت به مدل‌های قبلی عملکرد بهتری دارد. با این حال، استفاده از آن نسبت به GPT-4o گران‌تر و کندتر است. OpenAI این نسخه از o1 را به عنوان یک «پیش‌نمایش» معرفی کرده است تا نشان دهد که این مدل هنوز در مراحل اولیه توسعه قرار دارد.

از امروز، کاربران ChatGPT Plus و Team به هر دو مدل o1-preview و o1-mini دسترسی خواهند داشت، در حالی که کاربران Enterprise و Edu اوایل هفته آینده به این مدل‌ها دسترسی پیدا می‌کنند. OpenAI اعلام کرده است که قصد دارد دسترسی به o1-mini را برای تمام کاربران ChatGPT به رایگان فراهم کند، اما هنوز تاریخ عرضه دقیقی تعیین نشده است. دسترسی توسعه‌دهندگان به o1 بسیار گران است: در API، هزینه o1-preview برابر با ۱۵ دلار برای هر ۱ میلیون توکن ورودی (که به تکه‌های متنی که مدل پردازش می‌کند اشاره دارد) و ۶۰ دلار برای هر ۱ میلیون توکن خروجی است. برای مقایسه، هزینه GPT-4o برابر با ۵ دلار برای هر ۱ میلیون توکن ورودی و ۱۵ دلار برای هر ۱ میلیون توکن خروجی است.

رئیس تیم تحقیقات OpenAI، جری توورک، می‌گوید که آموزش مدل o1 به‌طور اساسی با مدل‌های قبلی متفاوت است، هرچند که شرکت در مورد جزئیات دقیق آن اطلاعات روشنی ارائه نمی‌دهد. او می‌گوید که o1 «با استفاده از یک الگوریتم بهینه‌سازی کاملاً جدید و یک مجموعه داده آموزشی جدید که به‌طور خاص برای این مدل طراحی شده، آموزش دیده است.»

مدل O1 از openai

OpenAI مدل‌های GPT قبلی را طوری آموزش داده بود که الگوهای موجود در داده‌های آموزشی خود را تقلید کنند. اما با مدل o1، این شرکت از روشی به نام «یادگیری تقویتی» استفاده کرده است که به سیستم از طریق پاداش‌ها و مجازات‌ها آموزش می‌دهد تا مسائل را به‌صورت مستقل حل کند. سپس از روشی به نام «زنجیره تفکر» برای پردازش سوالات استفاده می‌کند، مشابه با روشی که انسان‌ها مسائل را به صورت مرحله به مرحله حل می‌کنند.

به دلیل این روش جدید آموزشی، OpenAI معتقد است که مدل باید دقت بیشتری داشته باشد. توورک می‌گوید: «ما متوجه شدیم که این مدل کمتر دچار توهم می‌شود. ما نمی‌توانیم بگوییم که مشکل توهمات را حل کرده‌ایم.»

نکته اصلی که این مدل جدید را از GPT-4o متمایز می‌کند، توانایی آن در حل مسائل پیچیده مانند کدنویسی و ریاضیات است. همچنین این مدل می‌تواند دلایل استدلال خود را توضیح دهد، که نسبت به مدل‌های قبلی بهبود چشمگیری محسوب می‌شود.

رئیس بخش تحقیقات OpenAI، باب مک‌گرو، می‌گوید: «این مدل قطعاً در حل آزمون ریاضی AP بهتر از من عمل می‌کند، در حالی که من در دوران دانشگاه در رشته ریاضی تحصیل کرده‌ام.»

او اشاره می‌کند که OpenAI مدل o1 را در برابر یک آزمون مقدماتی برای المپیاد جهانی ریاضی نیز آزمایش کرده است، و در حالی که GPT-4o تنها ۱۳ درصد از مسائل را به درستی حل کرد، o1 موفق شد ۸۳ درصد از مسائل را به درستی پاسخ دهد.

در مسابقات برنامه‌نویسی آنلاین که به عنوان رقابت‌های Codeforces شناخته می‌شوند، این مدل جدید به صدک ۸۹ شرکت‌کنندگان رسید. OpenAI ادعا می‌کند که نسخه بعدی این مدل عملکردی مشابه دانشجویان دکتری در آزمون‌های سخت در زمینه‌های فیزیک، شیمی و زیست‌شناسی خواهد داشت.

با این حال، مدل o1 در بسیاری از زمینه‌ها به اندازه GPT-4o توانمند نیست. این مدل در دانش واقعی درباره جهان عملکرد ضعیف‌تری دارد. همچنین توانایی مرور وب یا پردازش فایل‌ها و تصاویر را ندارد. با این وجود، OpenAI معتقد است که این مدل نشان‌دهنده یک کلاس جدید از توانایی‌ها است. این مدل به نام o1 نام‌گذاری شده است تا مفهوم «بازنشانی شمارنده به ۱» را نشان دهد.

مک‌گرو می‌گوید: «صادقانه بگویم: به‌طور سنتی فکر می‌کنم ما در نام‌گذاری خیلی بد عمل می‌کنیم. امیدوارم این اولین قدم در جهت نام‌گذاری‌های جدیدتر و منطقی‌تر باشد که بهتر به بقیه دنیا نشان دهد ما چه کاری انجام می‌دهیم.»

من نتوانستم مدل o1 را شخصاً امتحان کنم، اما مک‌گرو و توورک این مدل را از طریق یک تماس ویدیویی به من نشان دادند. آن‌ها از مدل خواستند این معما را حل کند:

«شاهزاده خانم به اندازه سنی است که شاهزاده خواهد داشت زمانی که سن شاهزاده خانم دو برابر سنی باشد که شاهزاده داشت زمانی که سن شاهزاده خانم نصف مجموع سن فعلی آن‌ها بود. سن شاهزاده و شاهزاده خانم چقدر است؟ تمام راه‌حل‌های این سوال را ارائه دهید.»

مدل ۳۰ ثانیه زمان نیاز داشت و سپس پاسخ درست را ارائه داد. OpenAI رابط کاربری را به گونه‌ای طراحی کرده که مراحل استدلال مدل را نشان دهد. چیزی که برای من جالب بود، نه تنها این بود که مدل کار خود را نشان داد— GPT-4o هم در صورت درخواست این کار را انجام می‌دهد— بلکه نحوه‌ای بود که مدل o1 به طرز چشمگیری تلاش می‌کرد تا فکر کردن شبیه به انسان را تقلید کند. عباراتی مانند «کنجکاوم بدانم»، «دارم به این فکر می‌کنم» و «خب، بذار ببینم» یک توهم مرحله به مرحله از فرآیند تفکر ایجاد می‌کرد.

اما این مدل در واقع فکر نمی‌کند و قطعاً انسان نیست. پس چرا طراحی شده که این‌گونه به نظر برسد؟

مراحل تفکر مدل O1

به گفته توورک، OpenAI به همسان‌سازی تفکر مدل‌های هوش مصنوعی با تفکر انسانی اعتقادی ندارد. اما رابط کاربری طوری طراحی شده که نشان دهد مدل زمان بیشتری برای پردازش صرف می‌کند و عمیق‌تر به حل مسائل می‌پردازد. او می‌گوید: «در برخی موارد، احساس می‌شود این مدل نسبت به مدل‌های قبلی انسانی‌تر است.»

مک‌گرو می‌گوید: «فکر می‌کنم متوجه خواهید شد که در بسیاری از جنبه‌ها این مدل بیگانه به نظر می‌رسد، اما در برخی موارد هم به طرز شگفت‌انگیزی انسانی احساس می‌شود.»

این مدل زمان محدودی برای پردازش سوالات دارد، بنابراین ممکن است چیزی بگوید مانند: «آه، دارم زمانم را از دست می‌دهم، باید سریع‌تر به پاسخ برسم.» همچنین در مراحل اولیه «زنجیره تفکر» ممکن است به نظر برسد که در حال طوفان فکری است و عباراتی مانند «می‌توانم این کار یا آن کار را انجام دهم، کدام را باید انجام دهم؟»

ساخت به‌سوی عامل‌های مستقل

مدل‌های زبانی بزرگ در وضعیت کنونی‌شان واقعاً آن‌قدر هوشمند نیستند. آن‌ها اساساً فقط توالی‌های کلمات را پیش‌بینی می‌کنند تا بر اساس الگوهای آموخته شده از حجم وسیعی از داده‌ها به شما پاسخی بدهند. به‌عنوان مثال، ChatGPT که معمولاً به اشتباه ادعا می‌کند که کلمه «strawberry» فقط دو حرف «R» دارد، زیرا کلمه را به درستی تجزیه نمی‌کند. البته، مدل جدید o1 این سوال را درست پاسخ داد.

با توجه به گزارش‌هایی مبنی بر تلاش OpenAI برای جذب سرمایه بیشتر با ارزش‌گذاری چشمگیر ۱۵۰ میلیارد دلاری، پیشرفت‌های آینده این شرکت به موفقیت‌های تحقیقاتی بیشتر بستگی دارد. OpenAI در حال افزودن قابلیت‌های استدلال به مدل‌های زبانی بزرگ است، زیرا آینده‌ای را می‌بیند که در آن سیستم‌های خودمختار یا عامل‌هایی وجود دارند که قادر به تصمیم‌گیری و انجام اقدامات به نمایندگی از شما هستند.

برای پژوهشگران هوش مصنوعی، حل مسئله استدلال یک گام مهم به سوی هوش در سطح انسانی است. ایده این است که اگر مدلی بتواند فراتر از تشخیص الگو عمل کند، می‌تواند دستاوردهای مهمی در حوزه‌هایی مانند پزشکی و مهندسی به ارمغان بیاورد. اما در حال حاضر، توانایی‌های استدلالی مدل o1 نسبتاً کند است، شبیه عامل‌های خودمختار نیست و استفاده از آن برای توسعه‌دهندگان گران تمام می‌شود.

مک‌گرو می‌گوید: «ما ماه‌ها وقت صرف کار روی استدلال کرده‌ایم، زیرا فکر می‌کنیم این واقعاً همان پیشرفت کلیدی است. اساساً این یک روش جدید برای مدل‌ها است تا بتوانند مسائل بسیار سخت را حل کنند، مسائلی که برای پیشرفت به سوی سطوح هوش شبیه به انسان ضروری هستند.»

24 شهریور 1403

0 42 زمان تقریبی مطالعه 5 دقیقه