13 جولای 2023 -توسط دانشگاه کرنل -اعتبار: دامنه عمومی Pixabay/CC0
به لطف الگوریتمی که توسط محققان دانشگاه کرنل و Google Research ساخته شده است، فیلمسازان به زودی قادر خواهند بود ویدیوی نمایشی را تثبیت کنند، دیدگاه ها را تغییر دهند و جلوه های فریز فریم، زوم و جلوه های حرکت آهسته- بدون فیلمبرداری هیچ فیلم جدیدی ایجاد کنند.
این نرم افزار که DynIBar نام دارد، نماهای جدید را با استفاده از اطلاعات پیکسلی ویدیوی اصلی ترکیب می کند و حتی با اجسام متحرک و دوربین های متحرک کار می کند. این کار پیشرفت بزرگی نسبت به تلاشهای قبلی است، که تنها چند ثانیه ویدیو تولید میکرد و اغلب سوژههای متحرک را تار نشان میداد.
کد این تلاش تحقیقاتی به صورت رایگان در دسترس است، اگرچه این پروژه در مرحله اولیه است و هنوز در ابزارهای ویرایش ویدیوی تجاری ادغام نشده است.
نوآ اسناولی، دانشمند تحقیقاتی کالج کامپیوتر و علوم اطلاعات کورنل در Google Research و دانشیار علوم کامپیوتر در Cornell Tech می گوید: «در حالی که این تحقیق هنوز در روزهای اولیه خود است، من واقعاً در مورد کاربردهای بالقوه آینده برای استفاده شخصی و حرفه ای هیجان زده هستم.
Snavely این اثر را با عنوان “DynIBaR: Neural Dynamic Image-Based Rendering” در کنفرانس IEEE/CVF 2023 در مورد دید کامپیوتری و تشخیص الگو در 20 ژوئن ارائه کرد، جایی که جایزه افتخاری برای جایزه بهترین مقاله دریافت کرد. ژنگچی لی، دکترای Google Research نویسنده اصلی این مطالعه بود.
اسناولی میگوید: «در چند سال گذشته، ما شاهد پیشرفتهای عمدهای در روشهای سنتز نما بودهایم – الگوریتمهایی که میتوانند مجموعهای از تصاویر را برای ثبت یک صحنه از مجموعهای از دیدگاههای مجزا تهیه کنند و میتوانند نماهای جدیدی از آن صحنه ارائه دهند. با این حال، اکثر این روش ها در صحنه هایی با حرکت افراد یا حیوانات خانگی، تکان درختان و غیره شکست می خورند. این یک مشکل بزرگ است زیرا بسیاری از چیزهای جالب در جهان چیزهایی هستند که حرکت می کنند.
روشهای موجود برای ارائه نماهای جدید از صحنههای ثابت، مانند مواردی که یک عکس را سه بعدی نشان میدهند، شبکه دوبعدی پیکسلها را از یک تصویر میگیرند و شکل و ظاهر سهبعدی هر شی در عکس را بازسازی میکنند. DynIBar با تخمین چگونگی حرکت اشیاء در طول زمان، این کار را یک قدم فراتر می برد. اما در نظر گرفتن هر چهار بعد یک مسئله ریاضی فوق العاده دشوار ایجاد می کند.
محققان این مشکل را با استفاده از یک رویکرد گرافیکی کامپیوتری که در دهه 1990 به نام رندر مبتنی بر تصویر توسعه یافت، ساده کردند. در آن زمان، برای روشهای گرافیک کامپیوتری سنتی ارائه صحنههای پیچیده با بسیاری از قطعات کوچک – مانند درخت برگدار – دشوار بود، بنابراین محققان گرافیک روشهایی را توسعه دادند که از یک صحنه عکس میگرفتند و سپس قطعات را تغییر میدادند و دوباره ترکیب میکردند تا تصاویر جدید تولید کنند. به این ترتیب، بیشتر پیچیدگی در تصویر منبع ذخیره می شد و می توانست سریعتر بارگذاری شود.
Qianqian Wang، یکی از نویسندگان این مقاله، دانشجوی دکترا در زمینه علوم کامپیوتر در Cornell Tech، گفت: “ما ایده کلاسیک رندر مبتنی بر تصویر را ترکیب کردیم و این باعث می شود روش ما بتواند صحنه های بسیار پیچیده و ویدیوهای طولانی تر را مدیریت کند.” وانگ روشی را برای استفاده از رندر مبتنی بر تصویر برای ترکیب نماهای جدید از تصاویر ثابت ایجاد کرد که نرم افزار جدید بر روی آن ساخته شده است.
با وجود پیشرفت، این ویژگیها ممکن است به این زودیها به گوشی هوشمند شما ارائه نشوند. این نرم افزار چندین ساعت طول می کشد تا فقط 10 یا 20 ثانیه ویدیو را پردازش کند، حتی در یک کامپیوتر قدرتمند. اسناولی گفت که در کوتاه مدت، این فناوری ممکن است برای استفاده در نرم افزارهای ویرایش آفلاین ویدیو مناسب تر باشد.
مانع بعدی این است که بفهمیم چگونه می توان تصاویر جدید را در زمانی که اطلاعات پیکسلی از ویدیوی اصلی وجود ندارد، مانند زمانی که سوژه خیلی سریع حرکت می کند یا کاربر می خواهد زاویه دید را 180 درجه بچرخاند، ارائه دهد . Snavely و Wang تصور میکنند که به زودی میتوان تکنیکهای مولد هوش مصنوعی، مانند تولیدکنندههای متن به تصویر را برای پر کردن این شکافها به کار برد.