7 دسامبر 2021 توسط آدام زوی، موسسه فناوری ماساچوست
برای نمایش یک صحنه سه بعدی از یک تصویر دو بعدی، یک شبکه میدان نوری 360 درجه صحنه سه بعدی را در یک شبکه عصبی رمزگذاری می کند که مستقیماً هر پرتو دوربین را با رنگ مشاهده شده توسط آن پرتو نگاشت می کند.
انسان ها در نگاه کردن به یک تصویر دو بعدی و درک صحنه سه بعدی کاملی که آن عکس می گیرد بسیار خوب هستند. ام الگوریتمهای عوامل هوش مصنوعی اینگونه نیستند.
با این حال، ماشینی که نیاز به تعامل با اشیاء در جهان دارد – مانند رباتی که برای برداشت محصول یا کمک به جراحی طراحی شده است – باید بتواند ویژگی های یک صحنه سه بعدی را از مشاهدات تصاویر دو بعدی که روی آن آموزش دیده است، استنباط کند.
در حالی که دانشمندان با استفاده از شبکههای عصبی برای استنباط بازنمایی صحنههای سهبعدی از تصاویر به موفقیت دست یافتهاند، این روشهای یادگیری ماشینی آنقدر سریع نیستند که برای بسیاری از برنامههای کاربردی در دنیای واقعی قابل اجرا باشند.
روش جدیدی که توسط محققان MIT و جاهای دیگر نشان داده شده است، میتواند صحنههای سه بعدی از تصاویر را حدود 15000 برابر سریعتر از برخی مدلهای موجود نشان دهد.
این روش یک صحنه را به عنوان یک میدان نوری 360 درجه نشان می دهد، که تابعی است که تمام پرتوهای نور را در یک فضای سه بعدی توصیف می کند، که از هر نقطه و در هر جهت جریان دارد. میدان نوری در یک شبکه عصبی کدگذاری میشود، که امکان ارائه سریعتر صحنههای سه بعدی زیرین را از یک تصویر فراهم میکند.
شبکههای میدان نوری (LFN) که محققان توسعه دادهاند میتوانند یک میدان نوری را تنها پس از یک مشاهده تصویر بازسازی کنند و میتوانند صحنههای سهبعدی را با نرخ فریم در زمان واقعی ارائه دهند.
وعده بزرگ این بازنماییهای صحنه عصبی، در پایان روز، استفاده از آنها در کارهای بینایی است. من به شما یک تصویر میدهم و از آن تصویر، نمایشی از صحنه ایجاد میکنید، و سپس هر چیزی که میخواهید درباره آن استدلال کنید. وینسنت سیتزمن، یک فوق دکترا در آزمایشگاه علوم کامپیوتر و هوش مصنوعی (CSAIL) و یکی از نویسندگان مقاله می گوید: شما این را در فضای آن صحنه سه بعدی انجام می دهید.
سیتزمن این مقاله را با نویسنده همکار سمون رزچیکوف، فوق دکترای دانشگاه هاروارد نوشت. ویلیام تی فریمن، پروفسور توماس و گرد پرکینز در مهندسی برق و علوم کامپیوتر و عضو CSAIL. Joshua B. Tenenbaum، استاد علوم شناختی محاسباتی در بخش مغز و علوم شناختی و عضو CSAIL. و نویسنده ارشد Frédo Durand، استاد مهندسی برق و علوم کامپیوتر و عضو CSAIL. این تحقیق در کنفرانس سیستم های پردازش اطلاعات عصبی در ماه جاری ارائه خواهد شد.
پرتوهای نقشه برداری
در بینایی کامپیوتر و گرافیک کامپیوتری، ارائه یک صحنه سه بعدی از یک تصویر شامل نقشه برداری از هزاران یا احتمالاً میلیون ها پرتو دوربین است. به پرتوهای دوربین مانند پرتوهای لیزری فکر کنید که از لنز دوربین بیرون می آیند و به هر پیکسل در یک تصویر برخورد می کنند، یک پرتو در هر پیکسل. این مدلهای کامپیوتری باید رنگ پیکسلی را که با هر پرتو دوربین برخورد میکند، تعیین کنند.
بسیاری از روشهای کنونی این کار را با گرفتن صدها نمونه در طول هر پرتو دوربین در حین حرکت در فضا انجام میدهند، که از نظر محاسباتی فرآیندی پرهزینه است که میتواند منجر به رندرینگ کند شود.
در عوض، یک LFN یاد میگیرد که میدان نور یک صحنه سهبعدی را نشان دهد و سپس مستقیماً هر پرتو دوربین را در میدان نور به رنگی که توسط آن پرتو مشاهده میشود نگاشت میکند. یک LFN از ویژگیهای منحصربهفرد میدانهای نوری استفاده میکند، که نمایش یک پرتو را تنها پس از یک ارزیابی ممکن میسازد، بنابراین LFN برای انجام محاسبات نیازی به توقف در طول یک پرتو ندارد.
با توجه به تصویری از یک صحنه سه بعدی و یک پرتو نور، یک شبکه میدان نوری می تواند اطلاعات غنی را در مورد هندسه صحنه سه بعدی زیرین محاسبه کند.
با روشهای دیگر، وقتی این رندر را انجام میدهید، باید پرتو را دنبال کنید تا سطح را پیدا کنید. باید هزاران نمونه انجام دهید، زیرا پیدا کردن یک سطح به این معناست. و حتی هنوز کار را تمام نکردهاید. زیرا ممکن است چیزهای پیچیده ای مانند شفافیت یا انعکاس وجود داشته باشد. با یک میدان نوری، هنگامی که میدان نوری را بازسازی کردید، که یک مشکل پیچیده است، رندر کردن یک پرتو تنها یک نمونه از نمایش را می گیرد، زیرا نمایش مستقیماً یک پرتو را ترسیم می کند.
LFN هر پرتو دوربین را با استفاده از «مختصات Plücker طبقهبندی میکند، که یک خط را در فضای سهبعدی بر اساس جهت آن و فاصله آن از نقطه مبدا نشان میدهد. این سیستم مختصات Plücker هر پرتو دوربین را در نقطهای که با یک پیکسل برخورد میکند تا تصویری را ارائه کند، محاسبه میکند.
با نگاشت هر پرتو با استفاده از مختصات Plücker، LFN همچنین قادر است هندسه صحنه را به دلیل اثر اختلاف منظر محاسبه کند. اختلاف منظر تفاوت در موقعیت ظاهری یک جسم زمانی که از دو خط دید متفاوت مشاهده می شود. به عنوان مثال، اگر سر خود را حرکت دهید، به نظر می رسد اشیایی که دورتر هستند کمتر از اجسامی که نزدیکتر هستند حرکت می کنند. LFN می تواند عمق اشیاء را در یک صحنه به دلیل اختلاف منظر تشخیص دهد و از این اطلاعات برای رمزگذاری هندسه صحنه و همچنین ظاهر آن استفاده می کند.
اما برای بازسازی میدان های نوری، ابتدا شبکه عصبی باید ساختار میدان های نوری را بیاموزد، بنابراین محققان مدل خود را با تصاویر بسیاری از صحنه های ساده ماشین ها و صندلی ها آموزش دادند.
رزچیکوف میگوید: یک هندسه ذاتی از میدانهای نوری وجود دارد، چیزی که مدل ما تلاش میکند آن را بیاموزد. ممکن است نگران باشید که میدانهای نوری ماشینها و صندلیها آنقدر متفاوت هستند که نمیتوانید اشتراکاتی بین آنها بیاموزید. اما معلوم میشود، اگر شما انواع بیشتری از اشیاء را اضافه کنید، تا زمانی که مقداری همگنی وجود داشته باشد، درک بهتر و بهتری از نحوه نگاه کردن میدانهای نوری اشیاء عمومی به دست میآورید، بنابراین میتوانید در مورد طبقات تعمیم دهید.هنگامی که مدل ساختار یک میدان نوری را یاد میگیرد، میتواند یک صحنه سه بعدی را تنها از یک تصویر به عنوان ورودی ارائه کند.
رندر سریع
محققان مدل خود را با بازسازی میدان های نوری 360 درجه از چندین صحنه ساده آزمایش کردند. آنها دریافتند که LFNها میتوانند صحنهها را با سرعت بیش از 500 فریم در ثانیه، یعنی حدود سه مرتبه سریعتر از روشهای دیگر، ارائه دهند. علاوه بر این، اشیاء سه بعدی ارائه شده توسط LFN ها اغلب واضح تر از آن هایی بودند که توسط مدل های دیگر تولید می شدند.
یک LFN همچنین حافظه فشرده کمتری دارد و تنها به 1.6 مگابایت فضای ذخیره سازی ، در مقابل 146 مگابایت برای یک روش پایه رایج نیاز دارد.
میدانهای نوری قبلاً پیشنهاد شده بودند، اما در آن زمان غیرقابل حل بودند. حالا با این تکنیکهایی که در این مقاله استفاده کردیم، برای اولین بار میتوانید هم این میدانهای نوری را نشان دهید و هم با این میدانهای نوری کار کنید. این یک همگرایی جالب است. Sitzmann میگوید: مدلهای ریاضی و مدلهای شبکه عصبی که ما توسعه دادهایم در این کاربرد نمایش صحنهها گرد هم میآیند تا ماشینها بتوانند درباره آنها استدلال کنند.