14 اکتبر 2021، توسط دانشگاه بریستول
Egocentric 4D Live Perception (Ego4D) یک مجموعه داده در مقیاس وسیع است که 3025 ساعت فیلم از دوربینهای پوشیدنی 855 شرکت کننده در نه کشور را جمع آوری میکند.
دانشگاه بریستول بخشی از کنسرسیوم بین المللی 13 دانشگاه با همکاری فیس بوک در هوش مصنوعی است که برای پیشبرد ادراک خود محور همکاری کرده است. در نتیجه این ابتکار، ما بزرگترین مجموعه داده خودمحور جهان را با استفاده از دوربینهای خارج از قفسه و روی سر ساختهایم.
پیشرفت در زمینههای هوش مصنوعی (AI) و واقعیت افزوده (AR) مستلزم یادگیری از دادههای یکسانی است که انسان برای درک جهان از آنها استفاده میکند. چشمان ما به ما اجازه میدهد تا مکانها را بفهمیم، مردم را بفهمیم، اشیاء را دستکاری کنیم و از فعالیتها لذت ببریم – از عمل پیش پا افتاده باز کردن یک درب تا تعامل هیجان انگیز یک بازی فوتبال با دوستان.
Egocentric 4D Live Perception (Ego4D) یک مجموعه داده در مقیاس گسترده است که 3025 ساعت فیلم از دوربینهای پوشیدنی 855 شرکت کننده را در نه کشور انگلستان، هند، ژاپن، سنگاپور، KSA، کلمبیا، رواندا، ایتالیا و ایالات متحده جمع آوری میکند. دادهها طیف وسیعی از فعالیتها را از دیدگاه «خود محوری» – که از دیدگاه شخصی که فعالیت را انجام میدهد – در بر میگیرد. دانشگاه بریستول تنها نماینده بریتانیا در این تلاش متنوع و بین المللی است و 270 ساعت از 82 شرکت کننده که فیلمهایی از فعالیتهای روزانه خود را انتخاب کردهاند – مانند تمرین یک ابزار موسیقی، باغبانی، نظافت حیوان خانگی خود یا مونتاژ مبلمان را جمع آوری کرده است.
استاد دید کامپیوتر، دیما دامن میگوید:
«در آینده نه چندان دور شما ممکن است از عینک AR هوشمند استفاده کنید که راهنمای دستور العمل یا نحوه تعمیر دوچرخه شما باشد-آنها حتی میتوانند به شما یادآوری کنند که کلیدهای خود را کجا گذاشتهاید.»
«با این حال، برای پیشبرد هوش مصنوعی، باید جهان و تجربیات درون آن را بشناسد. هوش مصنوعی سعی میکند از طریق هضم دادههایی که درک میکنیم با همه جنبههای هوش انسانی آشنا شود. برای اینکه چنین یادگیری خودکار را مجاز کنیم، با ثبت و ضبط تجربیات روزانه «از طریق چشمان ما» این چیزی است که Ego4D ارائه میدهد.»
علاوه بر تصاویر ضبط شده، مجموعهای از معیارها برای محققان در دسترس است. معیار تعریف مشکل همراه با برچسبهای دستی جمع آوری شده برای مقایسه مدلها است. معیارهای EGO4D مربوط به درک مکانها، فضاها، اقدامات جاری، اقدامات آینده و همچنین تعاملات اجتماعی است.
پروفسور کریستن گرومن از سرپرست فنی فیس بوک میگوید: «پنج معیار جدید و چالش برانگیز ما یک هدف مشترک برای محققان ایجاد تحقیقات بنیادی برای درک دنیای واقعی از زمینههای بصری و اجتماعی ارائه میدهند.»
این پروژه بلندپروازانه از مجموعه دادههای موفق دانشگاه بریستول EPIC-KITCHENS الهام گرفته شد، که فعالیتهای آشپزخانه روزانه شرکت کنندگان در خانههای خود را ثبت میکرد و تا کنون، بزرگترین مجموعه داده در بینایی رایانهای خودمحور بوده است. EPIC-KITCHENS در رویکرد «مکث و روایت» پیشگام بوده است تا زمان دقیق دقیق محل انجام هر عمل را در فیلمهای طولانی و متنوع ارائه دهد. با استفاده از این رویکرد، کنسرسیوم EGO4D 2.5 میلیون بیانیه زمان بندی شده از اقدامات جاری در ویدیو را جمع آوری کرد، که برای محک زدن دادههای جمع آوری شده بسیار مهم است.
Ego4D یک مجموعه داده عظیم و متنوع با معیارهایی است که برای محققانی که در زمینههای واقعیت افزوده، فناوری کمکی و روباتیک کار میکنند بسیار ارزشمند است. مجموعه دادهها در ماه نوامبر سال جاری برای محققانی که قرارداد استفاده از دادههای Ego4D را امضا کردهاند به صورت عمومی در دسترس خواهد بود.
https://techxplore.com