تجربه کار با Sora: محدودیت ها و محاسن هوش مصنوعی ساخت ویدیو
شرکت OpenAI با رونمایی از ابزار تولید ویدیویی Sora در ماه فوریه، با ویدیویی بسیار طبیعی و بسیار جلوتر از رقبای خود، جامعه هوش مصنوعی را متعجب کرد. اما رونمایی کنترل شده این ابزار، جزئیات زیادی را از قلم انداخت، جزئیاتی که توسط یک فیلمسازی که دسترسی زودهنگام به ساخت یک فیلم کوتاه با استفاده از Sora داشت، منتشر شده است. با این حال این ابزار نیز مشابه ChatGPT هنوز کامل نیست. خبر زیر ترجمه گزارشی از Techcrunch در مورد این مدل و تجربه کار با آن است.
Shy Kids یک تیم تولید محتوای دیجیتال در شهر تورنتو است که توسط شرکت Open Ai به عنوان یکی از تولید کننده فیلم های کوتاه برای اهداف تبلیغاتی این شرکت انتخاب شدند. اگرچه به آن ها آزادی عمل بسیار زیادی در خلق ویدئو تبلیغاتی “سربه هوا “ داده شده بود.
پاتریک سدربرگ؛ هنرمند و متخصص در جلوه های بصری در مصاحبه با نشریه خبری جلوه های بصری fxguide راجع به استفاده از هوش مصنوعی Sora به صورت عملی صحبت کرده است.
شاید مهمترین نکته برای بسیاری این باشد: در حالی که پست تبلیغاتی OpenAI طوری ساخته شده تا بیننده فرض کند که تمام ویدئو تقریباً به طور کامل با استفاده از Sora ساخته شده است. اما در واقع این ویدئوها تولیدات حرفه ای بوده اند، با استوری بورد کامل، تدوین حرفه ای، اصلاح رنگ و فعالیت های پساتولیدی مانند روتوسکوپی و جلوه های ویژه.
درست مشابه اپل که در تبلیعات خود می گوید:«فیلم برداری با آیفون.» اما در واقعیت این ویدئو ها بدون تدوین استودیویی، نورپردازی حرفه ای و کار خلاق ممکن نیست. ویدئوی تبلیغی sora هم فقط در مورد کاری که مردم می توانند با آن انجام دهند صحبت می کند، نه اینکه چگونه این کار انجام شده است.
مصاحبه ای هم که با سدربرگ شده جالب و نکات فنی زیادی ندارد. اگر مایل به خواندن آن هستید، fxguide رفته و متن کامل را مطالعه کنید. با این حال با وجود جذابیت های مدل Sora، این مدل به اندازه ای که فکر می کردیم پیشرفته نیست.
مشکلات پیش بینی نشده در مدل Sora
کنترل خروجی این سیستم های تولیدکننده محتوا، همچنان جذاب ترین و در عین حال دست نیافتنی ترین بخش ماجراست. نزدیک ترین چیزی که به کنترل خروجی مدل داریم، ارائه توضیحات بسیار دقیق در قالب دستورات ورودی به سیستم است. برای اینکه لباس شخصیت ها یا شکل بالن در خروجی ها با هم هماهنگ باشند، مجبوریم ریزترین جزئیات را در دستورات قید کنیم. چون در حال حاضر، این سیستم ها قابلیتی برای حفظ انسجام بین فریم های مختلف یا خروجی های متعدد ندارند.
به عبارت دیگر، کارهایی که در فیلم سازی سنتی ساده هستند، مثل انتخاب رنگ لباس یک شخصیت، در این سیستم های تولیدکننده به راه حل های جایگزین پیچیده و بررسی های مداوم نیاز دارد. چون هر خروجی به صورت مستقل از خروجی های دیگر ساخته می شود و ممکن است میان فریم ها و هر خروجی، تغییرات تصادفی رخ دهد و این موضوع بسیار زمان بر است.
در خروجی های sora تمامی عناصر باید مورد توجه قرار گیرد تا اتفاق ناخواسته در ویدئو رخ ندهد. سدربرگ در ادامه از مشکلاتی از این مدل پرده برداشت. برای مثال، مدل دائما در تلاش برای کشیدن چهره آدم بر روی سر بادکنکی افراد بود. در حالی که اصلا قرار نبود صورتی بر روی بادکنک باشد. اگر تیم تولید کننده ویدئو در زمان تولید ویدئو با پرامپت متنی نمی توانستند این مشکلات را رفع کنند، باید در تدوین و ویرایش پس از آن مشکلات را حل می کردند. این فرایند زمان بر است.
زمان بندی و حرکت دقیق شخصیت ها و دوربین واقعا امکان پذیر نیست. سدربرگ افزود: «کنترل نسبتا کمی درمورد محل وقوع اعمال در خروجی ها وجود دار. ولی خروجی نهایی آنقدر دقیق نیست و به تیری در تاریکی بیشتر شبیه است.»
به طور مثال زمان بندی یک حرکت مثل موج مکزیکی، برخلاف انیمیشن های دست ساز کاملا تصادفی و از کنترل خارج است.
تیم Shy kids از ناتوانی مدل در فهم عبارات تخصصی فیلمسازی بسیار متعجب شده بودند. سدربرگ در این مورد گفت:« استفاده از زبان روزمره فیلم سازی، مثل گردش دوربین سمت راست یا نمای ترکینگ به طور کلی غیرممکن بود. محققان توسعه دهنده مدل، قبل از اینکه با ما هنرمندها برای استفاده از این مدل تماس بگیرند، مثل ما فکر نمی کردند.»
در نتیجه این تیم صدها خروجی 10 تا 20 ثانیه ای گرفتند و در نهایت تنها از تعداد اندکی از آن خروجی ها استفاده کردند. سدربرگ این نسبت را 300:1 تخمین زد و گفت: اما قطعا همه ما از این متوجه شدن این نسبت در یک فیلم معمولی بدون هوش مصنوعی شگفت زده می شویم.
اگر کنجکاو هستید، این گروه ویدیویی از پشت صحنه این فیلم کوتاه ساختند، و از برخی مشکلاتی که با آن مواجه شدند حرف زدند.
آخرین مسئله که در ساختن ویدیو با با آن مواجه خواهید شد، کپی رایت است. اگر از sora بخواهید که برای شما ویدیوئی مشابه فیلم جنگ ستارگان بسازد درخواست شما را رد خواهد کرد. حتی اگر از آن بخواهید که ویدیوئی از مردی شنل پوش با شمشیر لیزری در یک سیفینه فضایی با تم آینده نگرانه بسازد، باز درخواست شما را رد می کند. به طریقی sora می فهمد که شما دقیقا دنبال چه هستید. همچنین از دستور شاتی از نوع آرونوفسکی یا زوم هیچکاک خودداری می کند.
این امر کاملا منطقیست، ولی این سوال ایجاد می شود که: اگر هوش مصنوعی سورا بداند همه اینها چیست، آیا به این معناست که مدل بر روی این محتوا ها آموزش دیده تا بتواند با این نوع پرامپت ها مقابله کند؟ شرکت Open AI همیشه جزئیات داده های خود را مخفی نگه می دارد، پس ما پاسخ این سوال را نخواهیم فهمید.
درمورد استفاده از sora در فیلمسازی، واضح هست که در جای خود ابزاری قدرتمند و مفید است، اما در جایگاهی نیست که بتوان با آن یک فیلم کامل ساخت. هنوز نه.
اما همانطور که شرور ها در فیلم ها و سریال ها می گویند: بعدا می آید.