16 نوامبر 2023 – توسط دانشگاه پردو-یک ابزار تشخیصی برای شبکه های عصبی، یافتن خطاها را به آسانی تشخیص کوه ها از هواپیما می کند. اعتبار: دانشگاه پردو
در پسزمینه نرمافزار تشخیص تصویر که میتواند دوستان ما را در رسانههای اجتماعی و گلهای وحشی در حیاط ما شناسایی کند، شبکههای عصبی قرار دارند، نوعی هوش مصنوعی که از نحوه پردازش دادهها توسط مغز ما الهام گرفته شده است.
در حالی که شبکههای عصبی از طریق دادهها سرعت میگیرند، معماری آنها ردیابی منشأ خطاهایی را که برای انسانها آشکار است – مانند اشتباه گرفتن یک کانورس بالا با یک چکمه – دشوار میکند و استفاده از آنها را در کارهای حیاتیتر مانند تجزیه و تحلیل تصویر مراقبتهای بهداشتی یا تحقیق محدود میکند. . ابزار جدیدی که در دانشگاه پردو ساخته شده است، یافتن این خطاها را به سادگی تشخیص قله کوه از هواپیما می کند.
دیوید گلیچ، استاد علوم کامپیوتر پردو در کالج علوم که این ابزار را توسعه داده است، می گوید: «به یک معنا، اگر یک شبکه عصبی قادر به صحبت کردن باشد، ما به شما نشان می دهیم که چه چیزی می خواهد بگوید. این موضوع در مقاله ای که در Nature Machine Intelligence منتشر شده است.
ابزاری که ما توسعه دادهایم به شما کمک میکند مکانهایی را پیدا کنید که در آن شبکه میگوید: ” من برای انجام آنچه خواستهاید به اطلاعات بیشتری نیاز دارم.” من به مردم توصیه میکنم از این ابزار در هر سناریو تصمیمگیری شبکه عصبی با ریسک بالا یا کار پیشبینی تصویر استفاده کنند.”
گلیچ در این تحقیق با Tamal K. Dey، همچنین استاد علوم کامپیوتر پوردو، و منگ لیو، دانشجوی سابق فارغ التحصیل پوردو که مدرک دکترا در علوم کامپیوتر گرفت، همکاری کرد.
تیم گلیچ در آزمایش رویکرد خود، شبکههای عصبی را که هویت تصاویر موجود در پایگاههای اطلاعاتی همه چیز، از اشعه ایکس قفسه سینه و توالیهای ژنی گرفته تا پوشاک را اشتباه میگیرند، تعیین کردند. در یک مثال، یک شبکه عصبی بارها و بارها تصاویر خودروها را از پایگاه داده Imagenette به عنوان پخش کننده کاست به اشتباه برچسب گذاری کرد. دلی این است که تصاویر از لیست های فروش آنلاین گرفته شده اند و شامل برچسب هایی برای تجهیزات استریو خودروها می شوند.
سیستمهای تشخیص تصویر شبکههای عصبی اساساً الگوریتمهایی هستند که دادهها را به گونهای پردازش میکنند که الگوی پرتاب وزنی نورونها را بهعنوان تصویر تحلیل و شناسایی میکند. یک سیستم برای وظایف خود – مانند شناسایی یک حیوان، یک لباس یا یک تومور – با “مجموعه آموزشی” از تصاویر که شامل دادههای هر پیکسل، برچسبگذاری و اطلاعات دیگر و هویت تصویر طبقهبندی شده در یک دسته بندی خاص انجام میدهد.
با استفاده از مجموعه آموزشی، شبکه اطلاعاتی را که برای تطبیق مقادیر ورودی با مقوله نیاز دارد، یاد می گیرد یا «استخراج» می کند. این اطلاعات، رشته ای از اعداد به نام بردار تعبیه شده، برای محاسبه احتمال تعلق تصویر به هر یک از دسته بندی های ممکن استفاده می شود. به طور کلی، هویت صحیح تصویر در دسته بندی با بیشترین احتمال قرار دارد.
اما بردارها و احتمالات تعبیه شده با فرآیند تصمیم گیری که انسان تشخیص می دهد، ارتباطی ندارد. 100000 عدد که نشان دهنده داده های شناخته شده است تغذیه می شود و شبکه یک بردار تعبیه شده از 128 عدد تولید می کند که با ویژگی های فیزیکی مطابقت ندارد، اگرچه آنها طبقه بندی تصویر را برای شبکه ممکن می کنند.
به عبارت دیگر، نمیتوانید روی الگوریتمهای یک سیستم آموزشدیده، درب را باز کنید و آن را دنبال کنید. بین مقادیر ورودی و هویت پیشبینیشده تصویر یک ضربالمثل “جعبه سیاه” از اعداد غیرقابل تشخیص در چندین لایه وجود دارد.
مشکل شبکههای عصبی این است که ما نمیتوانیم داخل ماشین را ببینیم تا بفهمیم چگونه تصمیمگیری میکند، بنابراین چگونه میتوانیم بفهمیم که یک شبکه عصبی اشتباه مشخصی انجام میدهد؟
رویکرد گلیچ به جای تلاش برای ردیابی مسیر تصمیمگیری هر تصویر واحد از طریق شبکه، تجسم رابطهای را که رایانه در بین تمام تصاویر در یک پایگاه داده کامل میبیند، ممکن میسازد. به آن مانند یک نمای چشم پرنده از همه تصاویر فکر کنید زیرا شبکه عصبی آنها را سازماندهی کرده است.
رابطه بین تصاویر (مانند پیش بینی شبکه از طبقه بندی هویت هر یک از تصاویر در پایگاه داده) بر اساس بردارهای جاسازی شده و احتمالاتی است که شبکه تولید می کند. برای تقویت وضوح دید و یافتن مکانهایی که شبکه نمیتواند بین دو طبقهبندی مختلف تمایز قائل شود، تیم گلیچ ابتدا روشی برای تقسیم و همپوشانی طبقهبندیها برای شناسایی مکانهایی که تصاویر به احتمال زیاد به بیش از یک طبقهبندی تعلق دارند، توسعه دادند.
سپس این تیم روابط را بر روی یک نمودار Reeb، ابزاری که از حوزه تحلیل داده های توپولوژیکی گرفته شده است، ترسیم می کند. در نمودار، هر گروه از تصاویری که شبکه فکر می کند مرتبط هستند با یک نقطه نشان داده می شود. نقاط بر اساس طبقه بندی کد رنگی می شوند. هر چه نقاط نزدیکتر باشند، شبکه گروهها را شبیهتر میداند و بیشتر مناطق نمودار خوشههایی از نقاط را در یک رنگ نشان میدهند.
اما گروه هایی از تصاویر با احتمال بالای به بیش از یک طبقه بندی با دو نقطه با رنگ های متفاوت نشان داده می شود. با یک نگاه، مناطقی که شبکه نمیتواند بین دو طبقهبندی تمایز قائل شود، بهعنوان مجموعهای از نقاط در یک رنگ ظاهر میشوند که با انبوهی از نقاط روی هم در رنگ دوم همراه است. بزرگنمایی روی نقاط روی همپوشان، ناحیهای از سردرگمی را نشان میدهد، مانند تصویر ماشینی که هم برچسب ماشین و هم پخش کاست دارد.
گلیچ گفت: «کاری که ما انجام میدهیم این است که مجموعههای پیچیدهای از اطلاعات را که از شبکه بیرون میآیند، دریافت میکنیم و به مردم میدهیم که چگونه شبکه دادهها را در سطح ماکروسکوپی میبیند. “نقشه Reeb نشان دهنده چیزهای مهم، گروه های بزرگ و نحوه ارتباط آنها با یکدیگر است و این امکان دیدن خطاها را فراهم می کند.”