معرفی FLUX: مدل جدید تولید عکس با هوش مصنوعی
روز پنجشنبه، استارتآپ هوش مصنوعی Black Forest Labs از راهاندازی شرکت خود و عرضه اولین مجموعه مدلهای هوش مصنوعی تبدیل متن به تصویر با نام FLUX.1 خبر داد. این شرکت آلمانی که توسط محققانی تأسیس شده که فناوری پشت Stable Diffusion و تکنیک انتشار نهان را توسعه دادهاند، هدفش ایجاد هوش مصنوعی پیشرفته برای تولید تصاویر و ویدیوهاست.
عرضه FLUX.1 حدود هفت هفته پس از انتشار ناپایدار Stable Diffusion 3 Medium توسط Stability AI در اواسط ژوئن رخ داد. محصول Stability AI با انتقادات گستردهای در میان علاقهمندان به ترکیب تصویر روبرو شد، زیرا عملکرد ضعیفی در تولید اندام انسان داشت و کاربران نمونههای اندامهای تحریف شده و بدنهای ناهنجار را در شبکههای اجتماعی به اشتراک گذاشتند. این عرضه مشکلساز پس از خروج سه مهندس کلیدی از Stability AI—رابین رومباخ، آندریاس بلاتمن و دومینیک لورنز—اتفاق افتاد که با هم به همراه پاتریک اسر و دیگر همکاران خود Black Forest Labs را تأسیس کردند.
Black Forest Labs با عرضه سه مدل FLUX.1 تبدیل متن به تصویر شروع به کار کرد: یک نسخه تجاری “pro” پیشرفته، یک نسخه “dev” میانرده با وزنهای باز برای استفاده غیرتجاری، و یک نسخه سریعتر با وزنهای باز به نام “schnell” (که در آلمانی به معنی سریع یا تند است). Black Forest Labs ادعا میکند که مدلهایش در زمینههایی مانند کیفیت تصویر و تطابق با متن دستورات نسبت به گزینههای موجود مانند Midjourney و DALL-E عملکرد بهتری دارند.
در تجربه ما، خروجیهای دو مدل بالاتر FLUX.1 عموماً با DALL-E 3 از شرکت OpenAI از لحاظ دقت در پیروی از دستورات قابل مقایسه هستند، با واقعگرایی تصویری که به Midjourney 6 نزدیک به نظر میرسد. این مدلها نسبت به Stable Diffusion XL، که آخرین نسخه عمده تیم تحت Stability بود (اگر SDXL Turbo را حساب نکنید)، پیشرفت چشمگیری را نشان میدهند.
مدلهای FLUX.1 از آنچه شرکت “معماری هیبریدی” مینامد استفاده میکنند که ترکیبی از تکنیکهای ترانسفورمر و انتشار است، با مقیاسی تا ۱۲ میلیارد پارامتر. Black Forest Labs اعلام کرده که با بهکارگیری روشهای مچینگ جریان و بهینهسازیهای دیگر، عملکرد بهتری نسبت به مدلهای انتشار قبلی دارد.
FLUX.1 در تولید دستهای انسانی که نقطه ضعف مدلهای تصویری پیشین مانند Stable Diffusion 1.5 بود، که بهخاطر کمبود تصاویر آموزشی متمرکز بر دست مشکل داشتند، مهارت خوبی دارد. از آن زمان، دیگر تولیدکنندگان تصویر هوش مصنوعی مانند Midjourney نیز دست را به خوبی به تصویر کشیدهاند، اما قابل توجه است که یک مدل با وزنهای باز بتواند دستها را در حالتهای مختلف بهنسبت دقیق ترسیم کند.
ما فایل وزن مدل FLUX.1 dev را از GitHub دانلود کردیم، اما با حجم ۲۳ گیگابایت، در حافظه ۱۲ گیگابایتی کارت RTX 3060 ما جا نمیشود، بنابراین نیاز به کمینهسازی (کاهش اندازه) دارد تا به صورت محلی اجرا شود. گزارشهایی از کاربران روی Reddit نشان میدهد که برخی افراد در این زمینه موفق بودهاند.
به جای اینکه مدلها را به صورت محلی اجرا کنیم، با مدلهای FLUX.1 در پلتفرمهای میزبانی ابری هوش مصنوعی Fal و Replicate آزمایش کردیم؛ استفاده از این پلتفرمها هزینهبر است، هرچند که Fal مقداری اعتبار رایگان اولیه ارائه میدهد.
نگاه به جنگل تاریک پیش رو
شرکت Black Forest Labs ممکن است جدید باشد، اما در حال حاضر از توجه سرمایهگذاران برخوردار شده است. این شرکت بهتازگی یک مرحله تامین مالی اولیه (Series Seed) به ارزش ۳۱ میلیون دلار را با رهبری Andreessen Horowitz به پایان رسانده است و سرمایهگذاریهای اضافی از General Catalyst و MätchVC دریافت کرده است. همچنین این شرکت مشاوران برجستهای را به خدمت گرفته است، از جمله مدیر اجرایی صنعت سرگرمی و رئیس سابق دیزنی، مایکل اوویتز، و پژوهشگر هوش مصنوعی ماتئاس بتگه.
شرکت در بیانیهای اعلام کرد: “ما معتقدیم که هوش مصنوعی مولد جزء اساسی تمامی فناوریهای آینده خواهد بود. با در دسترس قرار دادن مدلهای ما برای یک جمعیت وسیع، ما میخواهیم مزایای آن را به همه بیاوریم، جامعه را آموزش دهیم و اعتماد به ایمنی این مدلها را افزایش دهیم.”
صحبت از “اعتماد و ایمنی”: شرکت اشارهای به منبع دادههای آموزشی که مدلهای FLUX.1 را در تولید تصاویر آموزش داده، نکرده است. با توجه به خروجیهایی که شامل تصاویر شخصیتهای دارای حق کپیرایت بود، به نظر میرسد شرکت Black Forest Labs از یک مجموعه غیرمجاز عظیم از تصاویر اینترنت استفاده کرده باشد که احتمالاً توسط LAION جمعآوری شده است؛ سازمانی که مجموعه دادههای لازم برای آموزش Stable Diffusion را جمعآوری کرده بود. البته این موضوع در حال حاضر در حد حدس و گمان است. در حالی که پیشرفت فناوری FLUX.1 قابل توجه است، به نظر میرسد که تیم در برخورد با اخلاقیات “استفاده منصفانه” از تصاویر، خیلی متعهدانه عمل نمیکند و همانند Stability AI، از روشهای مشابه استفاده میکند که ممکن است در نهایت باعث شکایتهای قانونی مشابهی شود که علیه Stability AI باشد.
هرچند تولید تبدیل متن به تصویر تمرکز فعلی شرکت Black Forest است، این شرکت برنامه دارد تا در آینده وارد حوزه ایجاد ویدیو شود. بلک فارست اعلام کرده که FLUX.1 به عنوان پایهای برای یک مدل جدید تبدیل متن به ویدیو که در دست توسعه است، استفاده خواهد شد. مدل جدید با Sora از شرکت OpenAI، Gen-3 Alpha از Runway و Kling از Kuaishou رقابت خواهد کرد تا بتواند واقعیت رسانهای را بر اساس تقاضا تغییر دهد. در بیانیه بلک فارست آمده است: «مدلهای ویدئویی ما ایجاد و ویرایش دقیق با کیفیت بالا و سرعت بیسابقه را ممکن خواهند.»