یک نرم افزار نماهای کاملاً جدیدی را از ویدیوهای موجود ایجاد می کند

13 جولای 2023 -توسط دانشگاه کرنل -اعتبار: دامنه عمومی Pixabay/CC0

به لطف الگوریتمی که توسط محققان دانشگاه کرنل و Google Research ساخته شده است، فیلمسازان به زودی قادر خواهند بود ویدیوی نمایشی را تثبیت کنند، دیدگاه ها را تغییر دهند و جلوه های فریز فریم، زوم و جلوه های حرکت آهسته- بدون فیلمبرداری هیچ فیلم جدیدی ایجاد کنند.

این نرم افزار که DynIBar نام دارد، نماهای جدید را با استفاده از اطلاعات پیکسلی ویدیوی اصلی ترکیب می کند و حتی با اجسام متحرک و دوربین های متحرک کار می کند. این کار پیشرفت بزرگی نسبت به تلاش‌های قبلی است، که تنها چند ثانیه ویدیو تولید می‌کرد و اغلب سوژه‌های متحرک را تار نشان می‌داد.

کد این تلاش تحقیقاتی به صورت رایگان در دسترس است، اگرچه این پروژه در مرحله اولیه است و هنوز در ابزارهای ویرایش ویدیوی تجاری ادغام نشده است.

نوآ اسناولی، دانشمند تحقیقاتی کالج کامپیوتر و علوم اطلاعات کورنل در Google Research و دانشیار علوم کامپیوتر در Cornell Tech می گوید: «در حالی که این تحقیق هنوز در روزهای اولیه خود است، من واقعاً در مورد کاربردهای بالقوه آینده برای استفاده شخصی و حرفه ای هیجان زده هستم.

Snavely این اثر را با عنوان “DynIBaR: Neural Dynamic Image-Based Rendering” در کنفرانس IEEE/CVF 2023 در مورد دید کامپیوتری و تشخیص الگو در 20 ژوئن ارائه کرد، جایی که جایزه افتخاری برای جایزه بهترین مقاله دریافت کرد. ژنگچی لی، دکترای Google Research نویسنده اصلی این مطالعه بود.

اسناولی می‌گوید: «در چند سال گذشته، ما شاهد پیشرفت‌های عمده‌ای در روش‌های سنتز نما بوده‌ایم – الگوریتم‌هایی که می‌توانند مجموعه‌ای از تصاویر را برای ثبت یک صحنه از مجموعه‌ای از دیدگاه‌های مجزا تهیه کنند و می‌توانند نماهای جدیدی از آن صحنه ارائه دهند. با این حال، اکثر این روش ها در صحنه هایی با حرکت افراد یا حیوانات خانگی، تکان درختان و غیره شکست می خورند. این یک مشکل بزرگ است زیرا بسیاری از چیزهای جالب در جهان چیزهایی هستند که حرکت می کنند.

روش‌های موجود برای ارائه نماهای جدید از صحنه‌های ثابت، مانند مواردی که یک عکس را سه بعدی نشان می‌دهند، شبکه دوبعدی پیکسل‌ها را از یک تصویر می‌گیرند و شکل و ظاهر سه‌بعدی هر شی در عکس را بازسازی می‌کنند. DynIBar با تخمین چگونگی حرکت اشیاء در طول زمان، این کار را یک قدم فراتر می برد. اما در نظر گرفتن هر چهار بعد یک مسئله ریاضی فوق العاده دشوار ایجاد می کند.

محققان این مشکل را با استفاده از یک رویکرد گرافیکی کامپیوتری که در دهه 1990 به نام رندر مبتنی بر تصویر توسعه یافت، ساده کردند. در آن زمان، برای روش‌های گرافیک کامپیوتری سنتی ارائه صحنه‌های پیچیده با بسیاری از قطعات کوچک – مانند درخت برگ‌دار – دشوار بود، بنابراین محققان گرافیک روش‌هایی را توسعه دادند که از یک صحنه عکس می‌گرفتند و سپس قطعات را تغییر می‌دادند و دوباره ترکیب می‌کردند تا تصاویر جدید تولید کنند. به این ترتیب، بیشتر پیچیدگی در تصویر منبع ذخیره می شد و می توانست سریعتر بارگذاری شود.

Qianqian Wang، یکی از نویسندگان این مقاله، دانشجوی دکترا در زمینه علوم کامپیوتر در Cornell Tech، گفت: “ما ایده کلاسیک رندر مبتنی بر تصویر را ترکیب کردیم و این باعث می شود روش ما بتواند صحنه های بسیار پیچیده و ویدیوهای طولانی تر را مدیریت کند.” وانگ روشی را برای استفاده از رندر مبتنی بر تصویر برای ترکیب نماهای جدید از تصاویر ثابت ایجاد کرد که نرم افزار جدید بر روی آن ساخته شده است.

با وجود پیشرفت، این ویژگی‌ها ممکن است به این زودی‌ها به گوشی هوشمند شما ارائه نشوند. این نرم افزار چندین ساعت طول می کشد تا فقط 10 یا 20 ثانیه ویدیو را پردازش کند، حتی در یک کامپیوتر قدرتمند. اسناولی گفت که در کوتاه مدت، این فناوری ممکن است برای استفاده در نرم افزارهای ویرایش آفلاین ویدیو مناسب تر باشد.

مانع بعدی این است که بفهمیم چگونه می توان تصاویر جدید را در زمانی که اطلاعات پیکسلی از ویدیوی اصلی وجود ندارد، مانند زمانی که سوژه خیلی سریع حرکت می کند یا کاربر می خواهد زاویه دید را 180 درجه بچرخاند، ارائه دهد . Snavely و Wang تصور می‌کنند که به زودی می‌توان تکنیک‌های مولد هوش مصنوعی، مانند تولیدکننده‌های متن به تصویر را برای پر کردن این شکاف‌ها به کار برد.

https://techxplore.com