6 ژوئن 2023 -توسط RIKEN-اعتبار: Unsplash/CC0 دامنه عمومی
محققان RIKEN نشان دادهاند که تنها ایجاد یک تغییر کوچک در الگوریتمهایی که معمولاً برای بهبود تصاویر استفاده میشوند، میتواند به طور چشمگیری قابلیتهای تشخیص بینایی رایانه را در برنامههای کاربردی از خودروهای خودران گرفته تا آواتارهای سایبرنتیک افزایش دهد.
برخلاف بسیاری از کارشناسان هوش مصنوعی (AI)، لین گو از مرکز پروژه هوش پیشرفته RIKEN کار خود را به عنوان یک درمانگر آغاز کرد. این پسزمینه به او بینش منحصربهفردی نسبت به واریانس مقیاس داد – مسئلهای حیاتی که بینایی کامپیوتر با آن مواجه است و به دشواری تشخیص دقیق اشیاء در مقیاسهای مختلف در یک تصویر اشاره دارد. از آنجایی که بیشتر سیستمهای هوش مصنوعی بر روی تصاویر با وضوح بالا آموزش دیدهاند، تصاویر واقعی با کیفیت پایین با ویژگیهای تار یا مخدوش الگوریتمهای تشخیص را با چالش مواجه میکنند.
این وضعیت گو را به یاد سندرم آلیس در سرزمین عجایب می اندازد، وضعیتی که باعث می شود اجسام کوچکتر یا بزرگتر از آنچه هستند به نظر برسند. گو می گوید: بینایی انسان دارای ثبات در اندازه است، به این معنی که ما اجسام را با وجود تغییر تصویر شبکیه به یک اندازه درک می کنیم. در مقابل، الگوریتمهای بینایی رایانهای موجود، مانند آلیس، فاقد آن ثبات هستند.
اکنون با الهام از تکنیکهای بازپخش هیپوکامپ که توسط مغز برای شکلدهی خاطرات استفاده میشود، گو و همکارانش مدلی را توسعه دادهاند که بهطور تصادفی وضوح، تاری و نویز یک تصویر با وضوح بالا را کاهش میدهد و به دنبال ویژگیهایی که پس از تکرار یکسان میمانند – تغییر می کند. این تحقیق در Computer Vision-ECCV 2022 منتشر شده است.
با آموزش بر روی داده های تولید شده، الگوریتم می تواند یادگیری خود نظارتی را انجام دهد: به سایر الگوریتم های پردازش تصویر کمک می کند تا بدون دخالت انسان بفهمند چه اشیایی در تصویر هستند و در کجا قرار دارند. نتیجه آن یک روش محاسباتی کارآمدتر برای رمزگذاری و بازیابی جزئیات مهم در یک تصویراست.
گو توضیح میدهد: «در روشهای معمول یادگیری خود نظارتی، دادههای آموزشی با پوشاندن بخشی از تصویر یا تغییر کنتراست قبل از یادگیری سیگنال نظارتی اصلاح میشوند. ما برای اولین بار استفاده از وضوح را به عنوان سرنخ خود نظارتی پیشنهاد می کنیم.»
جدا از کاربردهای معمول بینایی رایانه، گو اشاره می کند که نمایش ثابت ادراکی بخش اساسی فناوری های مربوط به سایبورگ ها و آواتارها خواهد بود. به عنوان مثال، او مشارکت خود را در پروژهای آیندهنگر توسط آژانسهای علمی ژاپنی برای ایجاد نسخه دیجیتالی واقعگرایانه از وزیر دولت که میتواند با شهروندان تعامل داشته باشد، ذکر میکند.
گو میگوید: «برای مکانیسم حافظه مصنوعی، بازنماییهایی که نسبت به تغییرات وضوح تغییری ندارند، میتوانند به عنوان یک کلید عمل کنند. من با دانشمندان علوم اعصاب در RIKEN کار می کنم تا رابطه بین بازنمایی دائمی مصنوعی و واقعی در مغز را کشف کنم.
این روش همچنین برای تصویربرداری تراهرتز – یک تکنیک تصویربرداری غیر مخرب نوظهور با پتانسیل زیادی در زیست پزشکی، امنیت و خصوصیات مواد – به کار می رود. گو می گوید: “به عنوان بخشی از همکاری مداوم با تیم مایکل جانستون در دانشگاه آکسفورد، ما در حال توسعه نسل جدیدی از دستگاه های تصویربرداری تراهرتز با استفاده از هوش مصنوعی برای افزایش کیفیت و وضوح آن هستیم.”