توسط گرگ نون 10 فوریه 2022
اینترنت اشیا در حال شکل گیری است. از یخچالها و ترموستاتهای هوشمند گرفته تا دستیاران مجازی و دوربینهای کوچک و درخشانی که مراقب درب منزل ها هستند، وسایل نقلیه ما با حسگرهای مجهز به هوش مصنوعی در هم تنیده شدهاند. با این حال، متأسفانه، قابلیت اطمینان آنها به قدرت یک رشته بستگی دارد: اتصال بین سنسور و ابر.
به هر حال، چنین محصولات IoT فاقد حافظه داخلی هستند تا بتوانند کارهای زیادی را به تنهایی انجام دهند. این دستگاهها اغلب کمی بیشتر از یک حسگر و یک واحد ریزپردازنده (MCU) مجهز به مقدار کمی حافظه هستند، این دستگاهها معمولاً بیشتر پردازش خود را به امکانات ابری برونسپاری میکنند. در نتیجه، دادهها باید بین دستگاههای IoT و رکهای سرور اختصاصی منتقل شوند، در حالی که اطلاعات مشتریان را در مراکز داده پرهزینه و دور که در برابر هک، قطع و سایر بلایای جزئی آسیبپذیر هستند، کاهش میدهد و قدرت و عملکرد را کاهش میدهد.
در این میان محققانی مانند سونگ هان رویکرد متفاوتی را در پیش گرفته اند. هان همراه با یک تیم اختصاصی در آزمایشگاه خود در موسسه فناوری ماساچوست (MIT)، کار خود را وقف افزایش کارایی MCU ها با هدف قطع ارتباط بین سنسورهای IoT و وسایل مادر ابری آنها کرده است. او توضیح میدهد که با قرار دادن الگوریتمهای یادگیری عمیق در خود دستگاهها، «ما میتوانیم حریم خصوصی را حفظ کنیم، هزینه را کاهش دهیم، تأخیر را کاهش دهیم و [دستگاه] را برای خانوادهها قابل اعتمادتر کنیم».
تاکنون، این حوزه از هوش مصنوعی مینیاتوری که به عنوان tinyML شناخته میشود، هنوز پیشرفت نکرده است. هان می گوید: «مشکل کلیدی محدودیت حافظه است. یک GPU به راحتی 32 گیگابایت حافظه دارد و یک تلفن همراه دارای 4 گیگابایت حافظه است. اما یک میکروکنترلر کوچک تنها 256 تا 512 کیلوبایت حافظه قابل خواندن و نوشتن داردکه چهار مرتبه کوچکتر است.»
این امر کار شبکه های عصبی بسیار پیچیده را برای عملکرد کامل خود در دستگاه های IoT دشوارتر می کند. با این حال، هان فرض کرد که یک روش فشرده سازی مدل جدید ممکن است کارایی آنها را در MCU افزایش دهد. با این حال، ابتدا باید بفهمد که چگونه هر لایه از شبکه عصبی از حافظه محدود دستگاه استفاده می کند – در این مورد، دوربینی طراحی شده است تا حضور یک فرد را قبل از شروع ضبط تشخیص دهد. هان میگوید: «ما متوجه شدیم که توزیع بسیار نامتعادل است، و بیشتر حافظه توسط یک سوم اول لایهها مصرف میشود.»
اینها لایههایی از شبکه عصبی بودند که وظیفه تفسیر تصویر را داشتند، که از رویکردی استفاده میکردند که هان آن را با پر کردن پیتزا در یک ظرف کوچک مقایسه میکرد. برای افزایش کارایی، هان و همکارانش یک «روش استنتاج مبتنی بر پچ» را برای این لایهها به کار بردند که شبکه عصبی تصویر را به بخشهای یک چهارم تقسیم کرد که میتوان آن را یکی یکی تحلیل کرد. با این حال، این مربع ها شروع به همپوشانی با یکدیگر کردند و به الگوریتم اجازه می دهد تصویر را بهتر درک کند، اما منجر به محاسبات اضافی می شود. برای کاهش این عارضه جانبی، هان و همکارانش یک روش بهینهسازی اضافی را در داخل شبکه عصبی به نام «توزیع مجدد میدان گیرنده» پیشنهاد کردند تا همپوشانی را به حداقل برسانند.
با نامگذاری راهحل بهدستآمده MCUNetV2، تیم دریافتند که وقتی نوبت به شناسایی موفقیتآمیز یک شخص در فید ویدیویی میرسد، از تکنیکهای جستجوی معماری عصبی و فشردهسازی مدل مشابه عملکرد بهتری دارد. هان می گوید: «ابزار شبکه تلفن همراه گوگل 88.5 درصد دقت داشت، اما به رم 360 کیلوبایتی نیاز داشت. “سال گذشته، MCUNetV2 ما حافظه را به 32 کیلوبایت کاهش داد، در حالی که هنوز دقت 90٪ را حفظ کرد” و به آن اجازه داد روی MCU های رده پایین با هزینه کمتر از 1.60 دلار مستقر شود.
MCUNetV2 همچنین از راه حل های مشابه tinyML در وظایف تشخیص اشیا، مانند “پیدا کردن اینکه آیا شخص ماسک زده است یا نه” و همچنین تشخیص چهره، بهتر عمل می کند. علاوه بر این، هان پتانسیل را در به کارگیری راه حل های مشابه برای وظایف تشخیص گفتار می بیند. یکی از روش های قبلی هان، MCUNet، موفقیت قابل توجهی در شناسایی کلمات کلیدی به دست آورد. او میگوید: «ما میتوانیم تأخیر را کاهش دهیم و آن را سه تا چهار برابر سریعتر کنیم».
محقق اضافه میکند که چنین نوآوریهایی در نهایت مزایای محاسبات لبه را برای میلیونها کاربر دیگر به ارمغان میآورد و به طیف وسیعتری از کاربردها برای سیستمهای IoT منجر میشود. با در نظر گرفتن این هدف است که هان به راه اندازی OmniML ، یک استارت آپ با هدف تجاری سازی برنامه هایی مانند MCUNetV2 کمک کرد.