نوآوری در مدیریت برای توسعه پایدار

Kolnegar Private Media (Management Innovation for Sustainable Development)

31 تیر 1403 3:42 ق.ظ

هدف محققان بهبود دسترسی با واقعیت افزوده است

بهبود دسترسی با واقعیت افزوده

17 اکتبر 2023 -وسط استفان میلن، دانشگاه واشنگتن–RASSAR برنامه‌ای است که خانه را اسکن می‌کند، مشکلات دسترسی و ایمنی را برجسته می‌کند و به کاربران اجازه می‌دهد روی آنها کلیک کنند تا اطلاعات بیشتری کسب کنند. اعتبار Su et al./ASSETS ’23

رقابت Big Tech در واقعیت افزوده (AR) روز به روز رقابتی تر می شود. در این ماه، متا آخرین نسخه از هدست خود، Quest 3 را منتشر کرد. اوایل سال آینده، اپل قصد دارد اولین هدست خود، Vision Pro را عرضه کند. اعلامیه‌های هر پلتفرم بر بازی‌ها و سرگرمی‌هایی تأکید می‌کند که دنیای مجازی و فیزیکی را ادغام می‌کنند: یک بازی دیجیتال بر روی میز قهوه، یک صفحه فیلم که بالای صندلی‌های هواپیما نمایش داده می‌شود.

با این حال، برخی از محققان در مورد کاربردهای دیگر AR کنجکاوتر هستند. آزمایشگاه Makeability دانشگاه واشنگتن از این فناوری های نوپا برای کمک به افراد دارای معلولیت استفاده می کند. در این ماه، محققان آزمایشگاه پروژه‌های متعددی را معرفی خواهند کرد که AR را از طریق هدست‌ها و برنامه‌های تلفن به کار می‌برند تا دنیا را در دسترس‌تر کنند.

محققان آزمایشگاه ابتدا RASSAR را ارائه خواهند کرد، برنامه‌ای که می‌تواند خانه‌ها را برای برجسته کردن مشکلات دسترسی و ایمنی در 23 اکتبر در کنفرانس ASSETS ’23 در نیویورک اسکن کند.

اندکی پس از آن، در 30 اکتبر، تیم های دیگر در آزمایشگاه تحقیقات اولیه را در کنفرانس UIST ’23 در سانفرانسیسکو ارائه خواهند کرد. یکی از برنامه‌ها به هدست‌ها اجازه می‌دهد زبان طبیعی را بهتر درک کنند و دیگری هدفش این است که تنیس و سایر ورزش‌های توپ را برای کاربران کم‌بینا در دسترس قرار دهد.

UW News با نویسندگان اصلی این سه مطالعه، Xia Su و Jae (Jaewook) Lee، هر دو دانشجوی دکترای UW در دانشکده علوم و مهندسی کامپیوتر پل جی آلن، در مورد کار خود و آینده AR برای دسترسی صحبت کرد.

AR چیست و در حال حاضر چگونه از آن استفاده می شود؟

جائه لی: فکر می‌کنم یکی از پاسخ‌های پذیرفته‌شده رایج این است که شما از یک هدست پوشیدنی یا تلفن برای قرار دادن اشیاء مجازی در یک محیط فیزیکی استفاده می‌کنید. بسیاری از مردم احتمالاً AR را از “Pokémon Go” می شناسند، جایی که شما این پوکمون ها را در دنیای فیزیکی قرار می دهید. اکنون اپل و متا در حال معرفی “واقعیت ترکیبی” یا AR passthrough هستند که دنیای فیزیکی و مجازی را از طریق دوربین‌ها بیشتر با هم ترکیب می‌کند.

شیا سو: چیزی که من اخیراً مشاهده کرده ام این است که مردم سعی می کنند تعریف را فراتر از عینک و صفحه نمایش تلفن گسترش دهند. ممکن است صدای AR وجود داشته باشد که شنوایی شما را دستکاری می کند، یا دستگاه هایی که سعی در دستکاری بو یا لمس شما دارند.

بسیاری از مردم واقعیت مجازی را با واقعیت مجازی مرتبط می‌دانند، و این موضوع در بحث در مورد متاورس و بازی پیچیده می‌شود. چگونه برای دسترسی استفاده می شود؟

   : JLواقعیت افزوده  به عنوان یک مفهوم برای چندین دهه وجود داشته است. اما در آزمایشگاه Jon Froehlich، ما AR را با تحقیقات دسترسی ترکیب می کنیم. مثلاً یک هدست یا یک تلفن می تواند بفهمد چند نفر در مقابل ما هستند. برای افرادی که نابینا یا کم بینا هستند، این اطلاعات می تواند برای درک آنها از جهان بسیار مهم باشد.

XS : واقعاً دو مسیر متفاوت برای تحقیق دسترسی AR وجود دارد. رایج‌تر این است که دستگاه‌های AR را برای مردم در دسترس‌تر کند. رویکرد دیگر که کمتر رایج است این سوال است: چگونه می توانیم از AR یا VR به عنوان ابزاری برای بهبود دسترسی به دنیای واقعی استفاده کنیم؟ این چیزی است که ما روی آن تمرکز کرده ایم.

JL: با کاهش حجم و ارزان‌تر شدن عینک‌های AR، و با پیشرفت هوش مصنوعی و بینایی کامپیوتر، این تحقیق اهمیت فزاینده‌ای پیدا می‌کند. اما AR گسترده، حتی برای دسترسی، سوالات زیادی را به همراه دارد. چگونه با حریم خصوصی تماشاگران برخورد می کنید؟ ما به عنوان یک جامعه درک می کنیم که فناوری بینایی می تواند برای افراد نابینا و کم بینا مفید باشد. اما ممکن است به دلایل حفظ حریم خصوصی نخواهیم فناوری تشخیص چهره را در برنامه‌ها قرار دهیم، حتی اگر به کسی کمک کند دوستان خود را بشناسد.

بیایید در مورد مقالاتی که در دست دارید صحبت کنیم. ابتدا، می توانید برنامه RASSAR خود را توضیح دهید؟

XS: این برنامه ای است که افراد می توانند از آن برای اسکن فضاهای داخلی خود استفاده کنند و به آنها کمک کند تا مشکلات ایمنی دسترسی احتمالی در خانه ها را تشخیص دهند. این امکان وجود دارد زیرا برخی از آیفون‌ها اکنون دارای اسکنرهای لیدار (تشخیص نور و محدوده) هستند که عمق فضا را نشان می‌دهند، بنابراین می‌توانیم فضا را به صورت سه بعدی بازسازی کنیم. ما این را با مدل‌های بینایی کامپیوتری ترکیب کردیم تا راه‌های بهبود ایمنی و دسترسی را برجسته کنیم. برای استفاده از آن، شخصی – شاید یکی از والدینی که در حال محافظت از کودک در خانه هستند یا یک مراقب – با گوشی هوشمند خود اتاقی را اسکن می کنند و RASSAR مشکلات دسترسی را تشخیص می دهد. به عنوان مثال، اگر یک میز خیلی بلند باشد، یک دکمه قرمز روی میز ظاهر می شود. اگر کاربر روی دکمه کلیک کند، اطلاعات بیشتری در مورد اینکه چرا ارتفاع آن میز مشکل دسترسی است و رفع‌های احتمالی وجود دارد.

JL: ده سال پیش، برای بررسی کامل یک خانه از نظر دسترسی، باید 60 صفحه PDF را مرور می‌کردید. ما این اطلاعات را در یک برنامه جمع آوری کردیم.و این چیزی است که هر کسی می تواند آن را در گوشی خود دانلود کرده و استفاده کند؟

XS: این هدف نهایی است. ما در حال حاضر یک نسخه نمایشی داریم. این نسخه متکی است.esدر لیدار، که در حال حاضر فقط در برخی از مدل‌های آیفون وجود دارد. اما اگر چنین دستگاهی دارید، بسیار ساده است.

JL: این نمونه‌ای از این پیشرفت‌ها در سخت‌افزار و نرم‌افزار است که به ما امکان می‌دهد به سرعت برنامه‌ها را ایجاد کنیم. اپل با اضافه کردن سنسور لیدار، RoomPlan را اعلام کرد که یک پلان سه بعدی از یک اتاق ایجاد می کند. ما از آن در RASSAR برای درک طرح کلی استفاده می کنیم. توانایی ایجاد بر روی آن به ما امکان می دهد تا به یک نمونه اولیه خیلی سریع برسیم.

بنابراین RASSAR اکنون تقریباً قابل استقرار است. سایر زمینه های تحقیقاتی که ارائه می کنید در مراحل اولیه توسعه آنها قرار دارند. می توانید درباره GazePointAR به من بگویید؟

JL: این برنامه ای است که بر روی یک هدست واقعیت افزوده به کار می رود تا افراد را قادر سازد تا با دستیارهای صوتی مانند سیری یا الکسا به طور طبیعی صحبت کنند. همه این ضمایر وجود دارد که ما هنگام صحبت استفاده می کنیم که درک آنها بدون زمینه بصری برای رایانه ها دشوار است. می توانم بپرسم “از کجا خریدی؟” اما این چی هست”؟ یک دستیار صوتی نمی داند در مورد چه چیزی صحبت می کنم. با GazePointAR، عینک به محیط اطراف کاربر نگاه می کند و برنامه نگاه و حرکات دست کاربر را ردیابی می کند. سپس مدل سعی می‌کند همه این ورودی‌ها را معنا کند – کلمه، حرکات دست، نگاه کاربر. سپس با استفاده از یک مدل زبان بزرگ، GPT، سعی می کند به سوال پاسخ دهد.

چگونه حس می کند که حرکات چیست؟

JL: ما از هدستی به نام HoloLens 2 استفاده می کنیم که توسط مایکروسافت توسعه یافته است. این یک ردیاب نگاه دارد که چشمان شما را تماشا می کند و سعی می کند حدس بزند که به چه چیزی نگاه می کنید. قابلیت ردیابی دست نیز دارد. در مقاله ای که در این زمینه ارائه کردیم، متوجه شدیم که در این زمینه مشکلات زیادی داریم. به عنوان مثال، مردم فقط از یک ضمیر در یک زمان استفاده نمی کنند – ما از چند ضمیر استفاده می کنیم. ما می گوییم: “این یا این چه چیزی گران تر است؟” برای پاسخ به آن، ما به اطلاعات در طول زمان نیاز داریم. اما، دوباره، اگر می‌خواهید نگاه شخصی یا میدان دید کسی را در طول زمان ردیابی کنید، می‌توانید با مشکلات حریم خصوصی مواجه شوید: چه اطلاعاتی را ذخیره می‌کنید و کجا ذخیره می‌شوند؟ همانطور که فناوری پیشرفت می کند، مطمئناً باید مراقب این نگرانی های مربوط به حریم خصوصی، به ویژه در بینایی رایانه باشیم.

این حتی برای انسان ها هم سخت است، درست است؟ من می توانم بپرسم، “می توانید آن را توضیح دهید؟” در حالی که به چندین معادله روی تخته سفید اشاره می کنید و نمی دانید به کدام یک اشاره می کنم. چه اپلیکیشن هایی برای این کار می بینید؟

JL: توانایی استفاده از زبان طبیعی بسیار مهم است. اما اگر این را به دسترسی بسط دهید، این امکان وجود دارد که یک فرد نابینا یا کم بینا از آن برای توصیف آنچه در اطراف خود است استفاده کند. سوال “آیا چیزی در مقابل من خطرناک است؟” برای دستیار صوتی نیز مبهم است. اما با GazePointAR، در حالت ایده‌آل، سیستم می‌تواند بگوید: “احتمالاً اشیاء خطرناکی مانند چاقو و قیچی وجود دارد.” یا افراد کم بینا ممکن است شکلی را تشخیص دهند، به آن اشاره کنند، سپس از سیستم بپرسند که «آن» به طور خاص چیست.و در نهایت شما روی سیستمی به نام ARTennis کار می کنید. چیست و چه چیزی باعث این تحقیق شد؟

JL: این حتی بیشتر از GazePointAR به آینده می رود ARTennis نمونه اولیه ای است که از یک هدست AR برای برجسته کردن توپ های تنیس برای بازیکنان کم بینا استفاده می کند. توپ در حال بازی با یک نقطه قرمز مشخص شده و دارای یک تیرهای سبز رنگ در اطراف آن است. پروفسور Jon Froehlich یکی از اعضای خانواده دارد که می خواهد با فرزندانش ورزش کند اما بینایی لازم برای انجام این کار را ندارد. ما فکر می‌کردیم که اگر برای تنیس کار کند، برای بسیاری از ورزش‌های دیگر هم جواب می‌دهد، زیرا تنیس یک توپ کوچک دارد که با دورتر شدن کوچک می‌شود. اگر بتوانیم توپ تنیس را در زمان واقعی ردیابی کنیم، می توانیم همین کار را با یک بسکتبال بزرگتر و کندتر انجام دهیم.

یکی از نویسندگان همکار دچارکم بینایی است و اسکواش زیادی بازی می کند و می خواست این اپلیکیشن را امتحان کند و به ما بازخورد بدهد. ما جلسات طوفان فکری زیادی با او انجام دادیم و او سیستم را آزمایش کرد. نقطه قرمز و تلاقی سبز طرحی است که او برای بهبود حس درک عمق ارائه کرده است.

چه چیزی مانع از این می شود که مردم بتوانند فوراً از آن استفاده کنند؟

JL: خوب، مانند GazePointAR، به یک هدست HoloLens 2 با قیمت 3500 دلار متکی است. بنابراین این یک مسئله دسترسی متفاوت است. همچنین تقریباً با سرعت 25 فریم در ثانیه اجرا می شود و برای اینکه انسان بتواند در زمان واقعی آن را درک کند باید حدود 30 فریم در ثانیه باشد. گاهی اوقات نمی توانیم سرعت توپ تنیس را ضبط کنیم. ما می‌خواهیم مقاله را گسترش دهیم و بسکتبال را اضافه کنیم تا ببینیم آیا طرح‌های مختلفی وجود دارد که مردم برای ورزش‌های مختلف ترجیح می‌دهند. این فناوری مطمئنا سریعتر خواهد شد. بنابراین سوال ما این است: بهترین طراحی برای افرادی که از آن استفاده می کنند چیست؟

https://techxplore.com

آیا این نوشته برایتان مفید بود؟

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *