
6 دسامبر 2021 توسط لورن هینکل، موسسه فناوری ماساچوست
3DWorld فیزیک و تجسم دنیای واقعی را در دنیای مجازی شبیه سازی می کند. اعتبار: چوانگ گان و همکاران
در حالی که در آشپزخانه ایستادهاید، چند کاسه فلزی را با صدایی به داخل سینک قرار میدهید و یک حوله را روی پشتی صندلی میکشید. در اتاقی دیگر، به نظر می رسد که برخی از بلوک های چوبی که به طور نامطمئن روی هم چیده شده اند، سقوط کرده اند، و یک تصادف جدی با ماشین اسباب بازی وجود دارد. این تعاملات با محیط ما تنها بخشی از آن چیزی است که انسان به صورت روزانه در خانه تجربه می کند، اما اگرچه این دنیا ممکن است واقعی به نظر برسد، اما اینطور نیست.
یک مطالعه جدید از محققان MIT، آزمایشگاه هوش مصنوعی واتسون MIT-IBM، دانشگاه هاروارد و دانشگاه استنفورد، دنیای مجازی غنی را امکانپذیر میسازد، که بسیار شبیه به «ماتریکس» است. پلتفرم آنها که ThreeDWorld (TDW) نام دارد، محیطهای صوتی و تصویری با کیفیت بالا را در داخل و خارج از خانه شبیهسازی میکند و به کاربران، اشیاء و عوامل موبایل اجازه میدهد تا مانند زندگی واقعی و طبق قوانین فیزیک با هم تعامل داشته باشند. جهت گیری اجسام، ویژگی های فیزیکی و سرعت ها برای سیالات، اجسام نرم و اجسام صلب در اثر فعل و انفعالات محاسبه و اجرا می شوند و برخوردهای دقیق و صداهای ضربه را ایجاد می کنند.
TDW از این نظر منحصر به فرد است که به گونه ای طراحی شده است که انعطاف پذیر و قابل تعمیم باشد، صحنه های مصنوعی واقعی عکس و رندر صوتی را در زمان واقعی ایجاد کند، که می تواند در مجموعه داده های صوتی و تصویری کامپایل شود، از طریق تعاملات درون صحنه اصلاح شود، و برای انسان و سیستم عصبی تطبیق داده شود. تست های یادگیری و پیش بینی شبکه انواع مختلفی از عوامل روباتیک و آواتارها نیز می توانند در شبیه سازی کنترل شده برای انجام، مثلاً، برنامه ریزی و اجرای کار ایجاد شوند. و برای مثال با استفاده از واقعیت مجازی (VR)، توجه انسان و رفتار بازی در فضا می تواند داده های دنیای واقعی را ارائه دهد.
چوانگ گان، سرپرست این مطالعه، دانشمند تحقیقاتی آزمایشگاه هوش مصنوعی MIT-IBM واتسون میگوید: ما در تلاش هستیم تا یک پلتفرم شبیهسازی همهمنظوره بسازیم که غنای تعاملی دنیای واقعی را برای انواع برنامههای هوش مصنوعی تقلید کند.
ایجاد دنیای مجازی شبیه به واقعی برای بررسی رفتارهای انسانی و آموزش ربات ها رویای محققان هوش مصنوعی و علوم شناختی بوده است. جاش مک درموت، دانشیار دپارتمان مغز و علوم شناختی (BCS) و هوش مصنوعی واتسون MIT-IBM میگوید: بیشتر هوش مصنوعی در حال حاضر مبتنی بر یادگیری نظارت شده است که بر مجموعه دادههای عظیمی از تصاویر یا صداهای حاشیهنویسی شده توسط انسان متکی است. سرپرست پروژه آزمایشگاهی جمعآوری این توصیفها پرهزینه است و گلوگاهی برای تحقیق ایجاد میکند. و برای ویژگیهای فیزیکی اجسام، مانند جرم، که همیشه برای ناظران انسانی آشکار نیست، برچسبها ممکن است اصلاً در دسترس نباشند. شبیهسازی مانند TDW با تولید صحنههایی که تمام پارامترها و حاشیهنویسیها در آن مشخص است، این مشکل را برطرف میکند. بسیاری از شبیهسازیهای رقابتی با انگیزه این نگرانی انجام شدهاند، اما برای کاربردهای خاص طراحی شدهاند. از طریق انعطافپذیری، TDW در نظر گرفته شده است تا بسیاری از برنامههای کاربردی را فعال کند که برای سایر پلتفرمها مناسب نیستند.
مک درموت خاطرنشان می کند یکی دیگر از مزایای TDW این است که یک محیط کنترل شده برای درک فرآیند یادگیری و تسهیل بهبود روبات های هوش مصنوعی فراهم می کند. سیستمهای رباتیک که بر آزمون و خطا متکی هستند، میتوانند در محیطی آموزش داده شوند که نتوانند آسیب فیزیکی وارد کنند. علاوه بر این، بسیاری از ما در مورد درهایی که این نوع از جهان های مجازی برای انجام آزمایشات روی انسان برای درک ادراک و شناخت انسان باز می کنند هیجان زده هستیم. امکان ایجاد این سناریوهای حسی بسیار غنی وجود دارد، جایی که شما هنوز کنترل کامل دارید. آگاهی از آنچه در محیط اتفاق می افتد.
این کار به عنوان همکاری بین گروهی از اساتید MIT به همراه محققان دانشگاه استنفورد و IBM آغاز شد که با علایق تحقیقاتی فردی به شنوایی، بینایی، شناخت و هوش ادراکی پیوند خوردند. TDW اینها را در یک پلتفرم گرد هم آورد. مک درموت، که شنوایی انسان و ماشین را مطالعه میکند، میگوید: همه ما به ایده ساختن یک دنیای مجازی برای آموزش سیستمهای هوش مصنوعی علاقهمند بودیم که در واقع بتوانیم از آن به عنوان مدلهای مغز استفاده کنیم. بنابراین، ما فکر کردیم که این نوع محیط، که در آن شما میتوانید اشیایی داشته باشید که با یکدیگر تعامل داشته باشند و سپس دادههای حسی واقعی را از آنها ارائه دهند، راهی ارزشمند برای شروع مطالعه آن خواهد بود.
برای دستیابی به این هدف، محققان TDW را بر روی یک پلتفرم بازی ویدیویی به نام Unity3D Engine ساختند و متعهد شدند که دادههای دیداری و شنیداری را بدون هیچ گونه انیمیشنی ترکیب کنند. شبیه سازی از دو جزء تشکیل شده است: ساخت، که تصاویر را رندر می کند، صدا را ترکیب می کند و شبیه سازی های فیزیک را اجرا می کند. و کنترلر که یک رابط مبتنی بر پایتون است که در آن کاربر دستوراتی را به بیلد ارسال می کند. محققان با بیرون کشیدن از یک کتابخانه مدل سه بعدی گسترده از اشیاء، مانند قطعات مبلمان، حیوانات و وسایل نقلیه، یک صحنه را می سازند و پر می کنند. این مدل ها به طور دقیق به تغییرات نور پاسخ می دهند و ترکیب مواد و جهت گیری آنها در صحنه رفتارهای فیزیکی آنها را در فضا دیکته می کند. مدلهای نورپردازی پویا به طور دقیق روشنایی صحنه را شبیهسازی میکنند و باعث ایجاد سایهها و کمنور شدن میشوند که مطابق با زمان مناسب روز و زاویه خورشید است. این تیم همچنین پلان های فضای مجازی مبله ای ایجاد کرده است که محققان می توانند با عوامل و آواتارها پر کنند. برای ترکیب صدای واقعی، TDW از مدلهای مولد صداهای ضربهای استفاده میکند که در اثر برخورد یا دیگر فعل و انفعالات شی در شبیهسازی ایجاد میشوند. TDW همچنین کاهش نویز و طنین را مطابق با هندسه فضا و اجسام موجود در آن شبیه سازی می کند.
دو موتور فیزیکی در تغییر شکلها و واکنشهای TDW بین اجسام در حال تعامل – یکی برای اجسام صلب و دیگری برای اجسام نرم و سیالات وجود دارد. TDW محاسبات آنی را در مورد جرم، حجم و چگالی و همچنین هرگونه اصطکاک یا سایر نیروهای وارد بر مواد انجام می دهد. این به مدلهای یادگیری ماشینی اجازه میدهد تا در مورد نحوه رفتار اجسام با ویژگیهای فیزیکی متفاوت با یکدیگر بیاموزند.
کاربران، عوامل و آواتارها می توانند صحنه ها را به روش های مختلفی زنده کنند. یک محقق میتواند مستقیماً از طریق فرمانهای کنترلکننده، نیرویی را به یک جسم وارد کند، که به معنای واقعی کلمه میتواند یک توپ مجازی را به حرکت درآورد. آواتارها را می توان قدرت داد تا به روشی خاص در فضا عمل کنند یا رفتار کنند – به عنوان مثال، با اندام های مفصلی که قادر به انجام آزمایش های کاری هستند. در نهایت، هد و گوشیهای VR میتوانند به کاربران اجازه دهند تا با محیط مجازی تعامل داشته باشند و به طور بالقوه دادههای رفتاری انسان را تولید کنند که مدلهای یادگیری ماشینی میتوانند از آن بیاموزند.
تجربیات غنی تر هوش مصنوعی
برای آزمایش و نشان دادن ویژگیها، قابلیتها و برنامههای منحصربهفرد TDW، این تیم مجموعهای از آزمایشها را انجام داد که مجموعه دادههای تولید شده توسط TDW و دیگر شبیهسازیهای مجازی را با هم مقایسه کردند. این تیم دریافتند که شبکههای عصبی آموزشدیده بر روی عکسهای فوری صحنه با زوایای دوربین بهطور تصادفی از TDW از عکسهای فوری شبیهسازیهای دیگر در تستهای طبقهبندی تصویر بهتر عمل میکنند و به سیستمهای آموزش دیده بر روی تصاویر دنیای واقعی نزدیک میشوند. محققان همچنین یک مدل طبقهبندی مواد را بر روی کلیپهای صوتی اجسام کوچکی که روی سطوح میافتند در TDW ایجاد و آموزش دادند و از آن خواستند انواع موادی را که در حال تعامل هستند شناسایی کند. آنها دریافتند که TDW نسبت به رقیب خود سود قابل توجهی داشته است. آزمایش افت شی اضافی با شبکههای عصبی آموزشدیده بر روی TDW نشان داد که ترکیب صدا و بینایی با هم بهترین راه برای شناسایی ویژگیهای فیزیکی اجسام است که انگیزه مطالعه بیشتر ادغام سمعی و بصری است.
TDW به ویژه برای طراحی و آزمایش سیستم هایی مفید است که درک می کنند که چگونه رویدادهای فیزیکی در یک صحنه در طول زمان تکامل می یابند. این شامل تسهیل معیارهایی است که نشان میدهد یک مدل یا الگوریتم چقدر خوب پیشبینی فیزیکی میکند، به عنوان مثال، پایداری اجسام یا حرکت اجسام پس از برخورد – انسانها بسیاری از این مفاهیم را در کودکی یاد میگیرند، اما این ظرفیت برای مفید بودن در دنیای واقعی به بسیاری از ماشینها باید نشان داده شوند. TDW همچنین مقایسه کنجکاوی و پیشبینی انسان را در برابر عوامل ماشینی که برای ارزیابی تعاملات اجتماعی در سناریوهای مختلف طراحی شدهاند، امکانپذیر کرده است.
گان اشاره می کند که این برنامه ها فقط نوک کوه یخ هستند. با گسترش قابلیتهای شبیهسازی فیزیکی TDW برای ترسیم دقیقتر دنیای واقعی، “ما در تلاش هستیم تا معیارهای جدیدی برای پیشرفت فناوریهای هوش مصنوعی ایجاد کنیم و از این معیارها برای باز کردن بسیاری از مشکلات جدید استفاده کنیم که تاکنون مطالعه آنها دشوار بوده است.”
https://techxplore.com