معرفی FLUX: مدل جدید تولید عکس با هوش مصنوعی

15 مرداد 1403

0 106 زمان تقریبی مطالعه 3 دقیقه

معرفی FLUX مدل جدید تولید عکس با هوش مصنوعی

روز پنجشنبه، استارت‌آپ هوش مصنوعی Black Forest Labs از راه‌اندازی شرکت خود و عرضه اولین مجموعه مدل‌های هوش مصنوعی تبدیل متن به تصویر با نام FLUX.1 خبر داد. این شرکت آلمانی که توسط محققانی تأسیس شده که فناوری پشت Stable Diffusion و تکنیک انتشار نهان را توسعه داده‌اند، هدفش ایجاد هوش مصنوعی پیشرفته برای تولید تصاویر و ویدیوهاست.

عرضه FLUX.1 حدود هفت هفته پس از انتشار ناپایدار Stable Diffusion 3 Medium توسط Stability AI در اواسط ژوئن رخ داد. محصول Stability AI با انتقادات گسترده‌ای در میان علاقه‌مندان به ترکیب تصویر روبرو شد، زیرا عملکرد ضعیفی در تولید اندام انسان داشت و کاربران نمونه‌های اندام‌های تحریف شده و بدن‌های ناهنجار را در شبکه‌های اجتماعی به اشتراک گذاشتند. این عرضه مشکل‌ساز پس از خروج سه مهندس کلیدی از Stability AI—رابین رومباخ، آندریاس بلاتمن و دومینیک لورنز—اتفاق افتاد که با هم به همراه پاتریک اسر و دیگر همکاران خود Black Forest Labs را تأسیس کردند.

Black Forest Labs با عرضه سه مدل FLUX.1 تبدیل متن به تصویر شروع به کار کرد: یک نسخه تجاری “pro” پیشرفته، یک نسخه “dev” میان‌رده با وزن‌های باز برای استفاده غیرتجاری، و یک نسخه سریع‌تر با وزن‌های باز به نام “schnell” (که در آلمانی به معنی سریع یا تند است). Black Forest Labs ادعا می‌کند که مدل‌هایش در زمینه‌هایی مانند کیفیت تصویر و تطابق با متن دستورات نسبت به گزینه‌های موجود مانند Midjourney و DALL-E عملکرد بهتری دارند.

تولید تصویر با دستور ویل اسمیت ماکارونی می خورد

در تجربه ما، خروجی‌های دو مدل بالاتر FLUX.1 عموماً با DALL-E 3 از شرکت OpenAI از لحاظ دقت در پیروی از دستورات قابل مقایسه هستند، با واقع‌گرایی تصویری که به Midjourney 6 نزدیک به نظر می‌رسد. این مدل‌ها نسبت به Stable Diffusion XL، که آخرین نسخه عمده تیم تحت Stability بود (اگر SDXL Turbo را حساب نکنید)، پیشرفت چشم‌گیری را نشان می‌دهند.

مدل‌های FLUX.1 از آنچه شرکت “معماری هیبریدی” می‌نامد استفاده می‌کنند که ترکیبی از تکنیک‌های ترانسفورمر و انتشار است، با مقیاسی تا ۱۲ میلیارد پارامتر. Black Forest Labs اعلام کرده که با به‌کارگیری روش‌های مچینگ جریان و بهینه‌سازی‌های دیگر، عملکرد بهتری نسبت به مدل‌های انتشار قبلی دارد.

FLUX.1 در تولید دست‌های انسانی که نقطه ضعف مدل‌های تصویری پیشین مانند Stable Diffusion 1.5 بود، که به‌خاطر کمبود تصاویر آموزشی متمرکز بر دست مشکل داشتند، مهارت خوبی دارد. از آن زمان، دیگر تولیدکنندگان تصویر هوش مصنوعی مانند Midjourney نیز دست را به خوبی به تصویر کشیده‌اند، اما قابل توجه است که یک مدل با وزن‌های باز بتواند دست‌ها را در حالت‌های مختلف به‌نسبت دقیق ترسیم کند.

ما فایل وزن مدل FLUX.1 dev را از GitHub دانلود کردیم، اما با حجم ۲۳ گیگابایت، در حافظه ۱۲ گیگابایتی کارت RTX 3060 ما جا نمی‌شود، بنابراین نیاز به کمینه‌سازی (کاهش اندازه) دارد تا به صورت محلی اجرا شود. گزارش‌هایی از کاربران روی Reddit نشان می‌دهد که برخی افراد در این زمینه موفق بوده‌اند.

به جای این‌که مدل‌ها را به صورت محلی اجرا کنیم، با مدل‌های FLUX.1 در پلتفرم‌های میزبانی ابری هوش مصنوعی Fal و Replicate آزمایش کردیم؛ استفاده از این پلتفرم‌ها هزینه‌بر است، هرچند که Fal مقداری اعتبار رایگان اولیه ارائه می‌دهد.

نگاه به جنگل تاریک پیش رو

شرکت Black Forest Labs ممکن است جدید باشد، اما در حال حاضر از توجه سرمایه‌گذاران برخوردار شده است. این شرکت به‌تازگی یک مرحله تامین مالی اولیه (Series Seed) به ارزش ۳۱ میلیون دلار را با رهبری Andreessen Horowitz به پایان رسانده است و سرمایه‌گذاری‌های اضافی از General Catalyst و MätchVC دریافت کرده است. همچنین این شرکت مشاوران برجسته‌ای را به خدمت گرفته است، از جمله مدیر اجرایی صنعت سرگرمی و رئیس سابق دیزنی، مایکل اوویتز، و پژوهشگر هوش مصنوعی ماتئاس بتگه.

شرکت در بیانیه‌ای اعلام کرد: “ما معتقدیم که هوش مصنوعی مولد جزء اساسی تمامی فناوری‌های آینده خواهد بود. با در دسترس قرار دادن مدل‌های ما برای یک جمعیت وسیع، ما می‌خواهیم مزایای آن را به همه بیاوریم، جامعه را آموزش دهیم و اعتماد به ایمنی این مدل‌ها را افزایش دهیم.”

صحبت از “اعتماد و ایمنی”: شرکت اشاره‌ای به منبع داده‌های آموزشی که مدل‌های FLUX.1 را در تولید تصاویر آموزش داده، نکرده است. با توجه به خروجی‌هایی که شامل تصاویر شخصیت‌های دارای حق کپی‌رایت بود، به نظر می‌رسد شرکت Black Forest Labs از یک مجموعه غیرمجاز عظیم از تصاویر اینترنت استفاده کرده باشد که احتمالاً توسط LAION جمع‌آوری شده است؛ سازمانی که مجموعه داده‌های لازم برای آموزش Stable Diffusion را جمع‌آوری کرده بود. البته این موضوع در حال حاضر در حد حدس و گمان است. در حالی که پیشرفت فناوری FLUX.1 قابل توجه است، به نظر می‌رسد که تیم در برخورد با اخلاقیات “استفاده منصفانه” از تصاویر، خیلی متعهدانه عمل نمی‌کند و همانند Stability AI، از روش‌های مشابه استفاده می‌کند که ممکن است در نهایت باعث شکایت‌های قانونی مشابهی شود که علیه Stability AI باشد.

هرچند تولید تبدیل متن به تصویر تمرکز فعلی شرکت Black Forest است، این شرکت برنامه دارد تا در آینده وارد حوزه ایجاد ویدیو شود. بلک فارست اعلام کرده که FLUX.1 به عنوان پایه‌ای برای یک مدل جدید تبدیل متن به ویدیو که در دست توسعه است، استفاده خواهد شد. مدل جدید با Sora از شرکت OpenAI، Gen-3 Alpha از Runway و Kling از Kuaishou رقابت خواهد کرد تا بتواند واقعیت رسانه‌ای را بر اساس تقاضا تغییر دهد. در بیانیه بلک فارست آمده است: «مدل‌های ویدئویی ما ایجاد و ویرایش دقیق با کیفیت بالا و سرعت بی‌سابقه را ممکن خواهند.»

15 مرداد 1403

0 106 زمان تقریبی مطالعه 3 دقیقه