12 آگوست 2021توسط دانشگاه سیمون فریزر
محققان آزمایشگاه عکاسی محاسباتی دانشگاه سیمون فریزر در SFU با موفقیت به هوش مصنوعی نحوه تعیین عمق از یک عکس را آموزش میدهند.
محققان آزمایشگاه عکاسی محاسباتی SFU امیدوارند به رایانهها یک مزیت بصری بدهند که ما انسانها آن را مسلم میدانیم – توانایی تشخیص عمق در عکسها. در حالی که انسان به طور طبیعی میتواند میزان نزدیک بودن یا فاصله اجسام از یک نظر واحد، مانند عکس یا نقاشی را تعیین کند، این امر برای کامپیوترها یک چالش است – اما ممکن است به زودی بر آن غلبه کنند.
محققان اخیراً کار خود را در جهت بهبود فرایندی به نام برآورد عمق یک چشمی منتشر کردهاند، تکنیکی که به رایانهها آموزش میدهد که چگونه با استفاده از یادگیری ماشینی عمق را تشخیص دهند.
مهدی میانگوله، دانشجوی کارشناسی ارشد کار در آزمایشگاه میگوید: «وقتی به یک عکس نگاه میکنیم، میتوان فاصله نسبی اجسام را با نگاه به اندازه، موقعیت و نسبت آنها نسبت به یکدیگر تشخیص داد. این مستلزم شناخت اجسام یک صحنه و دانستن اندازه اجسام در زندگی واقعی است. این کار به تنهایی یک موضوع تحقیقاتی فعال برای شبکههای عصبی است.»
با وجود پیشرفت در سالهای اخیر، تلاشهای موجود برای ارائه نتایج با وضوح بالا که میتواند یک تصویر را به یک فضای سه بعدی (3D) تبدیل کند، شکست خورده است. برای مقابله با این، آزمایشگاه پتانسیلهای بکر مدلهای شبکه عصبی موجود در ادبیات را تشخیص داد. تحقیقات پیشنهادی عدم وجود نتایج با وضوح بالا در روشهای فعلی را از طریق محدودیتهای شبکههای عصبی پیچشی توضیح میدهد. علی رغم پیشرفتهای چشمگیر در سالهای اخیر، شبکههای عصبی هنوز از ظرفیت نسبتاً کمی برای تولید بسیاری از جزئیات به طور همزمان برخوردارند.
محدودیت دیگر این است که این شبکهها چقدر میتوانند به یکباره به صحنه نگاه کنند، که تعیین میکند شبکه عصبی از چه میزان اطلاعات میتواند برای درک صحنههای پیچیده استفاده کند. با تلاش برای افزایش وضوح تخمینهای بصری خود، محققان در حال حاضر این امکان را ایجاد کردهاند که تصاویر سه بعدی مفصلی ایجاد کنند که برای چشم انسان واقعی به نظر برسد. این به اصطلاح نقشههای عمق برای ایجاد رندرهای سه بعدی از صحنهها و شبیه سازی حرکت دوربین در گرافیک رایانه استفاده میشود.
وی توضیح میدهد: «روش ما یک تصویر را تجزیه و تحلیل میکند و با مشاهده محتوای تصویر با توجه به محدودیتهای معماری فعلی، فرایند را بهینه میکند. ما تصویر ورودی خود را به اشکال مختلف به شبکه عصبی خود میدهیم تا با حفظ هندسه واقع بینانه به اندازه مدل اجازه داده شود.»