نوآوری در مدیریت برای توسعه پایدار

Kolnegar Private Media (Management Innovation for Sustainable Development)

5 اردیبهشت 1403 4:23 ق.ظ

تکنیک رندر زمان واقعی صحنه ها را به صورت سه بعدی امکان پذیر می کند

7 دسامبر 2021  توسط آدام زوی، موسسه فناوری ماساچوست

برای نمایش یک صحنه سه بعدی از یک تصویر دو بعدی، یک شبکه میدان نوری 360 درجه صحنه سه بعدی را در یک شبکه عصبی رمزگذاری می کند که مستقیماً هر پرتو دوربین را با رنگ مشاهده شده توسط آن پرتو نگاشت می کند.

انسان ها در نگاه کردن به یک تصویر دو بعدی و درک صحنه سه بعدی کاملی که آن عکس می گیرد بسیار خوب هستند. ام الگوریتمهای عوامل هوش مصنوعی اینگونه نیستند.

با این حال، ماشینی که نیاز به تعامل با اشیاء در جهان دارد – مانند رباتی که برای برداشت محصول یا کمک به جراحی طراحی شده است – باید بتواند ویژگی های یک صحنه سه بعدی را از مشاهدات تصاویر دو بعدی که روی آن آموزش دیده است، استنباط کند.

در حالی که دانشمندان با استفاده از شبکه‌های عصبی برای استنباط بازنمایی صحنه‌های سه‌بعدی از تصاویر به موفقیت دست یافته‌اند، این روش‌های یادگیری ماشینی آنقدر سریع نیستند که برای بسیاری از برنامه‌های کاربردی در دنیای واقعی قابل اجرا باشند.

روش جدیدی که توسط محققان MIT و جاهای دیگر نشان داده شده است، می‌تواند صحنه‌های سه بعدی از تصاویر را حدود 15000 برابر سریع‌تر از برخی مدل‌های موجود نشان دهد.

این روش یک صحنه را به عنوان یک میدان نوری 360 درجه نشان می دهد، که تابعی است که تمام پرتوهای نور را در یک فضای سه بعدی توصیف می کند، که از هر نقطه و در هر جهت جریان دارد. میدان نوری در یک شبکه عصبی کدگذاری می‌شود، که امکان ارائه سریع‌تر صحنه‌های سه بعدی زیرین را از یک تصویر فراهم می‌کند.

شبکه‌های میدان نوری (LFN) که محققان توسعه داده‌اند می‌توانند یک میدان نوری را تنها پس از یک مشاهده تصویر بازسازی کنند و می‌توانند صحنه‌های سه‌بعدی را با نرخ فریم در زمان واقعی ارائه دهند.

وعده بزرگ این بازنمایی‌های صحنه عصبی، در پایان روز، استفاده از آنها در کارهای بینایی است. من به شما یک تصویر می‌دهم و از آن تصویر، نمایشی از صحنه ایجاد می‌کنید، و سپس هر چیزی که می‌خواهید درباره آن استدلال کنید. وینسنت سیتزمن، یک فوق دکترا در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و یکی از نویسندگان مقاله می گوید: شما این را در فضای آن صحنه سه بعدی انجام می دهید.

سیتزمن این مقاله را با نویسنده همکار سمون رزچیکوف، فوق دکترای دانشگاه هاروارد نوشت. ویلیام تی فریمن، پروفسور توماس و گرد پرکینز در مهندسی برق و علوم کامپیوتر و عضو CSAIL. Joshua B. Tenenbaum، استاد علوم شناختی محاسباتی در بخش مغز و علوم شناختی و عضو CSAIL. و نویسنده ارشد Frédo Durand، استاد مهندسی برق و علوم کامپیوتر و عضو CSAIL. این تحقیق در کنفرانس سیستم های پردازش اطلاعات عصبی در ماه جاری ارائه خواهد شد.

پرتوهای نقشه برداری

در بینایی کامپیوتر و گرافیک کامپیوتری، ارائه یک صحنه سه بعدی از یک تصویر شامل نقشه برداری از هزاران یا احتمالاً میلیون ها پرتو دوربین است. به پرتوهای دوربین مانند پرتوهای لیزری فکر کنید که از لنز دوربین بیرون می آیند و به هر پیکسل در یک تصویر برخورد می کنند، یک پرتو در هر پیکسل. این مدل‌های کامپیوتری باید رنگ پیکسلی را که با هر پرتو دوربین برخورد می‌کند، تعیین کنند.

بسیاری از روش‌های کنونی این کار را با گرفتن صدها نمونه در طول هر پرتو دوربین در حین حرکت در فضا انجام می‌دهند، که از نظر محاسباتی فرآیندی پرهزینه است که می‌تواند منجر به رندرینگ کند شود.

در عوض، یک LFN یاد می‌گیرد که میدان نور یک صحنه سه‌بعدی را نشان دهد و سپس مستقیماً هر پرتو دوربین را در میدان نور به رنگی که توسط آن پرتو مشاهده می‌شود نگاشت می‌کند. یک LFN از ویژگی‌های منحصربه‌فرد میدان‌های نوری استفاده می‌کند، که نمایش یک پرتو را تنها پس از یک ارزیابی ممکن می‌سازد، بنابراین LFN برای انجام محاسبات نیازی به توقف در طول یک پرتو ندارد.

با توجه به تصویری از یک صحنه سه بعدی و یک پرتو نور، یک شبکه میدان نوری می تواند اطلاعات غنی را در مورد هندسه صحنه سه بعدی زیرین محاسبه کند.

با روش‌های دیگر، وقتی این رندر را انجام می‌دهید، باید پرتو را دنبال کنید تا سطح را پیدا کنید. باید هزاران نمونه انجام دهید، زیرا پیدا کردن یک سطح به این معناست. و حتی هنوز کار را تمام نکرده‌اید. زیرا ممکن است چیزهای پیچیده ای مانند شفافیت یا انعکاس وجود داشته باشد. با یک میدان نوری، هنگامی که میدان نوری را بازسازی کردید، که یک مشکل پیچیده است، رندر کردن یک پرتو تنها یک نمونه از نمایش را می گیرد، زیرا نمایش مستقیماً یک پرتو را ترسیم می کند.

LFN هر پرتو دوربین را با استفاده از «مختصات Plücker طبقه‌بندی می‌کند، که یک خط را در فضای سه‌بعدی بر اساس جهت آن و فاصله آن از نقطه مبدا نشان می‌دهد. این سیستم مختصات Plücker هر پرتو دوربین را در نقطه‌ای که با یک پیکسل برخورد می‌کند تا تصویری را ارائه کند، محاسبه می‌کند.

با نگاشت هر پرتو با استفاده از مختصات Plücker، LFN همچنین قادر است هندسه صحنه را به دلیل اثر اختلاف منظر محاسبه کند. اختلاف منظر تفاوت در موقعیت ظاهری یک جسم زمانی که از دو خط دید متفاوت مشاهده می شود. به عنوان مثال، اگر سر خود را حرکت دهید، به نظر می رسد اشیایی که دورتر هستند کمتر از اجسامی که نزدیکتر هستند حرکت می کنند. LFN می تواند عمق اشیاء را در یک صحنه به دلیل اختلاف منظر تشخیص دهد و از این اطلاعات برای رمزگذاری هندسه صحنه و همچنین ظاهر آن استفاده می کند.

اما برای بازسازی میدان های نوری، ابتدا شبکه عصبی باید ساختار میدان های نوری را بیاموزد، بنابراین محققان مدل خود را با تصاویر بسیاری از صحنه های ساده ماشین ها و صندلی ها آموزش دادند.

رزچیکوف می‌گوید: یک هندسه ذاتی از میدان‌های نوری وجود دارد، چیزی که مدل ما تلاش می‌کند آن را بیاموزد. ممکن است نگران باشید که میدان‌های نوری ماشین‌ها و صندلی‌ها آنقدر متفاوت هستند که نمی‌توانید اشتراکاتی بین آنها بیاموزید. اما معلوم می‌شود، اگر شما انواع بیشتری از اشیاء را اضافه ‌کنید، تا زمانی که مقداری همگنی وجود داشته باشد، درک بهتر و بهتری از نحوه نگاه کردن میدان‌های نوری اشیاء عمومی به دست می‌آورید، بنابراین می‌توانید در مورد طبقات تعمیم دهید.هنگامی که مدل ساختار یک میدان نوری را یاد می‌گیرد، می‌تواند یک صحنه سه بعدی را تنها از یک تصویر به عنوان ورودی ارائه کند.

رندر سریع

محققان مدل خود را با بازسازی میدان های نوری 360 درجه از چندین صحنه ساده آزمایش کردند. آنها دریافتند که LFNها می‌توانند صحنه‌ها را با سرعت بیش از 500 فریم در ثانیه، یعنی حدود سه مرتبه سریع‌تر از روش‌های دیگر، ارائه دهند. علاوه بر این، اشیاء سه بعدی ارائه شده توسط LFN ها اغلب واضح تر از آن هایی بودند که توسط مدل های دیگر تولید می شدند.

یک LFN همچنین حافظه فشرده کمتری دارد و تنها به 1.6 مگابایت فضای ذخیره سازی ، در مقابل 146 مگابایت برای یک روش پایه رایج نیاز دارد.

میدان‌های نوری قبلاً پیشنهاد شده بودند، اما در آن زمان غیرقابل حل بودند. حالا با این تکنیک‌هایی که در این مقاله استفاده کردیم، برای اولین بار می‌توانید هم این میدان‌های نوری را نشان دهید و هم با این میدان‌های نوری کار کنید. این یک همگرایی جالب است. Sitzmann می‌گوید: مدل‌های ریاضی و مدل‌های شبکه عصبی که ما توسعه داده‌ایم در این کاربرد نمایش صحنه‌ها گرد هم می‌آیند تا ماشین‌ها بتوانند درباره آنها استدلال کنند.

https://techxplore.com

آیا این نوشته برایتان مفید بود؟

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *