امروز دیگر اغلب مردم، در کنار همهی چیزهایی که داخل گنجهی دوست داشتنهای ذهنشان با خود حمل میکنند، نام یک پویانمایی هم حضور دارد. دنیای پویانمایی آنقدر گسترده شده که احتمالا از هر کسی بپرسید، پویانمایی مورد علاقهاش چیست؟ سوالتان را بدون جواب نمیگذارد و نام یک پویانمایی را میگوید. اما شاید کمتر ماها بدانیم که شخصیتهای محبوب یا منفورمان چگونه خلق میشوند و ساخت آنها چه فرایندی را طی میکند. پویانمایی از نظر فنی، دنبالهای از تصاویر و ایجاد ارتباط بین آنهاست. ساخت پویانمایی و فرایند تولید آن کار نسبتاً سخت و زمانبری است و به چندین سازنده با تواناییهای مختلف نیاز دارد که با دنبالهای از تصاویر یک سکانس را میسازند. سکانسی که محصول سطوح مختلف طراحی، گرافیکی و… و ارتباط آنها با همدیگر است.
با این اوصاف، به احتمال فراوان دنیای پویانمایی، مکان و حوزهی مناسب و جذابی برای ورود و زیست هوش مصنوعی است. به نظر میرسد سیستمهای مبتنی بر هوش مصنوعی با توجه به امکانات و قابلیتهایی که دارند، میتوانند از طریق بسط تصاویری که تولید میکنند بر شیوههای ساخت پویانمایی تأثیر بگذارند و موجب ایجاد خلاقیتهایی در ساخت پویانماییها شوند. بر همین اساس این مقاله، چگونگی فرایند ساخت پویانمایی با هوش مصنوعی و اصول آنرا از طریق مطالعه موردی مدلStable Diffusionبررسی میکند و تصویر و چشمانداز مناسبی را برای مخاطب از این فرایند بهوجود میآورد.
مدل Stable Diffusion چیست؟
مدل Stable Diffusion بهطور مشترک توسط چند شرکت تحقیقاتی هوش مصنوعی از جمله: CompVis، Stability AI و Anthropic ایجاد شده است. این مدل، یک مدل متن باز است که نسخههایی از آن مانند Stable Diffusion WebUI و DreamStudio توسط توسعهدهندگان ایجاد شده است. Stable Diffusion یک مدل انتشار متن به تصویر است، به این معنی که با توجه به متن، تصاویر را برای انتشار تولید میکند. این مدل میتواند تصاویر واقعی و متنوع را مستقیماً از توضیحات متنی ایجاد کند و قابلیت های آن بهطور قابل توجهی از مدلهای قبلی تولید تصویر هوش مصنوعی بیشتر و بهتر است.
این مدل بر روی مجموعه دادههای بزرگ متن و تصاویر بهنام LAION-5B آموزش داده شده و همین امر آنرا قادر ساخته تا روابط متن-تصویر را یاد بگیرد. Stable Diffusion نشاندهنده یک پیشرفت در هنر تولید شده توسط هوش مصنوعی است که علاوه بر کیفیت و سرعت دارای امکانات خلاقانه جدیدی نیز است.
Stable Diffusion چگونه پویانمایی میسازد؟
Stable Diffusion یک مدل واحد نیست، این مدل از دو بخش اصلی «رمزگذار متن» که در آن متن به نشانههای عددی تبدیل میشود و «تولید کننده تصویر» که تصاویر را از متن رمزگداری شده ایجاد میکند تشکیل شده است. در ادامه برای درک بهتر این دو مرحله؛ بهشکل مختصر توضیحاتی از نحوه کار این دو مرحله آورده شده است.
- رمزگذار متن: در این مرحله رشتهای متن وارد شده و هر کلمه در متن به نشانهای تبدیل میشود. سپس هر کدام از این نشانهها تبدیل به یک بردار شده و از این راه، اطلاعات دیجیتالی برای تولید تصویر نهایی فراهم میشود. در واقع رمزگذاری متن شامل تبدیل متن به مقدارهایی عددی برای تولید تصویر است.
- تولید کننده تصویر: در این مرحله مولد تصویر با استفاده از اطلاعات مرحله قبل و با استفاده از پایگاه داده، تولید تصاویر را انجام میدهد. در این مدل خلق تصویر بهطور کامل در فضای اطلاعات تصویر (یا فضای پنهان) اتفاق میافتد که این امر باعث میشود فرایند تولید سریعتر از سایر مدلهای هوش مصنوعی باشد. از نظر فنی، تولید کننده تصویر از یک شبکه عصبی UNet و یک الگوریتم زمانبندی تشکیل شده است.
نحوه عملکرد تولید کننده تصویر در مدل Stable Diffusion
فرایند تولید در مدل Stable Diffusion بهوسیله یک الگوریتم اجرا میشود. بدین صورت که در مرحله اول، رمزگذار تصویر، تصویر را از فضای پیکسل به ابعاد کوچکتری از فضای پنهان فشرده میکند و اطلاعات ضروریتری را از تصویر میگیرد و سپس تصویر کدگذاری شده با جلو عقب کردن پخش میشوند، که به این فرایند اصطلاحاً انتشار به جلو و معکوسسازی گفته میشود. بر همین اساس Stable Diffusion هر تصویر از یک سکانس را بر اساس نشانههای متنی و با تکنیکهایی جهت صاف کردن انتقال بین تصویرها تولید میکند.
نمونهای از انیمیشن ساخته شده با هوش مصنوعی
هنرمندان از مدلهای هوش مصنوعی مانند Stable Diffusion برای تولید انیمیشنهای ساده و بدون پیچیدگی استفاده میکنند. این کار با با وارد کردن پیامهای متنی که موضوع، نور، زوایای دوربین، حالتها و حرکات دوربین را توصیف میکنند به مدل انجام میشود.
پویانمایی «سنگ، کاغذ، قیچی» یک انیمیشن هفت دقیقهای است که سازندگان آن با روشی خلاقانه، ابتدا تمام تصاویر را بهصورت واقعی و با چند بازیگر فیلمبرداری کردهاند، سپس تصاویر را با استفاده از Stable Diffusion به پویانمایی تبدیل کردهاند. آنها در این مسیر به مشکلاتی مانند ناهماهنگی بین فریمها که باعث ایجاد نویز شده اشاره و سعی کردهاند با عملیات معکوسسازی آنرا برطرف کنند.
جمعبندی و نتیجهگیری
بهطور کلی هوش مصنوعی در حال حاضر قادر به تولید آثار هنری بهشکل مستقل نیست و نیازمند خلاقیت انسانی است. مدل هوش مصنوعی Stable Diffusion نیز بهشکل مشابه، ابزاری برای تولید پویانمایی است که در عین حال اینکه امکانات و ابزارهایی را در اختیار سازندگان قرار میدهد اما همچنان نیازمند هدایت انسانی است.
هوش مصنوعی میتواند محتوای جدید پویانمایی را گسترش دهد، الهام بخش خلاقیت باشد و نوآوریهایی را در فرم بهوجود بیاورد. در حال حاضر با هوش مصنوعی پویانماییهای سادهای نیز ساخته میشود اما کیفیت تصویر آنها پایین است و نماها و صحنههای آنها پیچیده نیستند.
با این حال مدل هوش مصنوعی Stable Diffusion نشاندهنده یک پیشرفت در استفاده از هوش مصنوعی برای تقویت خلاقیت انسان است. این مدل با کمک به گردش کار، کارایی و دسترسی، امکان تولید هنر و پویانمایی را برای افراد بیشتری فراهم کرده است.