آموزش هوش مصنوعی برای تشخیص عمق در عکس‌ها و نقاشی‌ها

12 آگوست 2021توسط دانشگاه سیمون فریزر

محققان آزمایشگاه عکاسی محاسباتی دانشگاه سیمون فریزر در SFU با موفقیت به هوش مصنوعی نحوه تعیین عمق از یک عکس را آموزش می‌دهند.

محققان آزمایشگاه عکاسی محاسباتی SFU امیدوارند به رایانه‌ها یک مزیت بصری بدهند که ما انسان‌ها آن را مسلم می‌دانیم – توانایی تشخیص عمق در عکس‌ها. در حالی که انسان به طور طبیعی می‌تواند میزان نزدیک بودن یا فاصله اجسام از یک نظر واحد، مانند عکس یا نقاشی را تعیین کند، این امر برای کامپیوترها یک چالش است – اما ممکن است به زودی بر آن غلبه کنند.

محققان اخیراً کار خود را در جهت بهبود فرایندی به نام برآورد عمق یک چشمی منتشر کرده‌اند، تکنیکی که به رایانه‌ها آموزش می‌دهد که چگونه با استفاده از یادگیری ماشینی عمق را تشخیص دهند.

مهدی میانگوله، دانشجوی کارشناسی ارشد کار در آزمایشگاه می‌گوید: «وقتی به یک عکس نگاه می‌کنیم، می‌توان فاصله نسبی اجسام را با نگاه به اندازه، موقعیت و نسبت آن‌ها نسبت به یکدیگر تشخیص داد. این مستلزم شناخت اجسام یک صحنه و دانستن اندازه اجسام در زندگی واقعی است. این کار به تنهایی یک موضوع تحقیقاتی فعال برای شبکه‌های عصبی است.»

با وجود پیشرفت در سال‌های اخیر، تلاش‌های موجود برای ارائه نتایج با وضوح بالا که می‌تواند یک تصویر را به یک فضای سه بعدی (3D) تبدیل کند، شکست خورده است. برای مقابله با این، آزمایشگاه پتانسیل‌های بکر مدل‌های شبکه عصبی موجود در ادبیات را تشخیص داد. تحقیقات پیشنهادی عدم وجود نتایج با وضوح بالا در روش‌های فعلی را از طریق محدودیت‌های شبکه‌های عصبی پیچشی توضیح می‌دهد. علی رغم پیشرفت‌های چشمگیر در سال‌های اخیر، شبکه‌های عصبی هنوز از ظرفیت نسبتاً کمی برای تولید بسیاری از جزئیات به طور همزمان برخوردارند.

محدودیت دیگر این است که این شبکه‌ها چقدر می‌توانند به یکباره به صحنه نگاه کنند، که تعیین می‌کند شبکه عصبی از چه میزان اطلاعات می‌تواند برای درک صحنه‌های پیچیده استفاده کند. با تلاش برای افزایش وضوح تخمین‌های بصری خود، محققان در حال حاضر این امکان را ایجاد کرده‌اند که تصاویر سه بعدی مفصلی ایجاد کنند که برای چشم انسان واقعی به نظر برسد. این به اصطلاح نقشه‌های عمق برای ایجاد رندرهای سه بعدی از صحنه‌ها و شبیه سازی حرکت دوربین در گرافیک رایانه استفاده می‌شود.

وی توضیح می‌دهد: «روش ما یک تصویر را تجزیه و تحلیل می‌کند و با مشاهده محتوای تصویر با توجه به محدودیت‌های معماری فعلی، فرایند را بهینه می‌کند. ما تصویر ورودی خود را به اشکال مختلف به شبکه عصبی خود می‌دهیم تا با حفظ هندسه واقع بینانه به اندازه مدل اجازه داده شود.»

https://techxplore.com