مطالعه جدید نشان می دهد که چگونه هوش مصنوعی قادر به بازتولید بینایی انسان نیست

17 مارس 2023 -توسط جف رنو، دانشگاه وسترن انتاریو-انتخاب تصاویر شیء نشان داده شده به ناظران انسانی و شبکه های عصبی عمیق. اعتبار Marieke Mur

وقتی انسان چهره ای آشنا یا وسیله نقلیه ای را که در حال نزدیک شدن است می بیند، فقط 100 میلی ثانیه (حدود یک دهم ثانیه) در مغز طول می کشد تا آن را شناسایی کند و مهمتر از آن، آن را در زمینه مناسب قرار دهد تا بتوان آن را درک کرد. فرد می تواند بر این اساس واکنش نشان دهد.

جای تعجب نیست که رایانه‌ها ممکن است بتوانند این کار را سریع‌تر انجام دهند، اما آیا آنها به اندازه انسان‌ها در دنیای واقعی دقیق هستند؟ بر اساس مطالعه ای که توسط ماریکه مور، متخصص تصویربرداری عصبی انجام شد، همیشه نه، و این یک مشکل است.

می توان به رایانه ها یاد داد که داده های دریافتی را پردازش کنند، مانند مشاهده چهره ها و اتومبیل ها، با استفاده از هوش مصنوعی معروف به شبکه های عصبی عمیق یا یادگیری عمیق. این نوع فرآیند یادگیری ماشینی از گره ها یا نورون های به هم پیوسته در ساختار لایه ای شبیه مغز انسان استفاده می کند.

کلمه کلیدی “شبیه” است زیرا کامپیوترها، علیرغم قدرت و نوید یادگیری عمیق، هنوز بر محاسبات انسانی و مهمتر از همه، ارتباطی که بین بدن و مغز وجود دارد، به ویژه هنگامی که صحبت از تشخیص بصری می شود، تسلط پیدا نکرده است.

مور، پروفسور مور که به طور مشترک در دپارتمان‌های روان‌شناسی و علوم کامپیوتر منصوب شده است، می‌گوید: «شبکه‌های عصبی عمیق، اگرچه امیدوارکننده هستند، اما به‌عنوان مدل‌های محاسباتی کامل بینایی انسان فاصله زیادی دارند.

مطالعات قبلی نشان داده‌اند که یادگیری عمیق نمی‌تواند شناخت بصری انسان را به‌طور کامل بازتولید کند، اما تعداد کمی تلاش کرده‌اند تا مشخص کنند که یادگیری عمیق بینایی انسان در تقلید از کدام جنبه‌ها ناکام است.

این تیم از یک آزمایش پزشکی غیر تهاجمی به نام مگنتوآنسفالوگرافی (MEG) استفاده کردند که میدان های مغناطیسی تولید شده توسط جریان های الکتریکی مغز را اندازه گیری می کند. مور و همکاران بین‌المللی او با استفاده از داده‌های MEG به‌دست‌آمده از ناظران انسانی در حین مشاهده شی، یک نقطه کلیدی شکست را شناسایی کردند. آن‌ها دریافتند که بخش‌هایی از اشیاء که به راحتی قابل نام‌گذاری هستند، مانند «چشم»، «چرخ» و «صورت»، می‌توانند واریانس دینامیک عصبی انسان را بیش از آنچه یادگیری عمیق می‌تواند ارائه دهد، توضیح دهد.

مور می‌گوید: «این یافته‌ها نشان می‌دهد که شبکه‌های عصبی عمیق و انسان‌ها ممکن است تا حدی به ویژگی‌های مختلف شی برای تشخیص بصری تکیه کنند و دستورالعمل‌هایی برای بهبود مدل ارائه کنند.

این مطالعه نشان می‌دهد که شبکه‌های عصبی عمیق نمی‌توانند به طور کامل پاسخ‌های عصبی اندازه‌گیری شده در ناظران انسانی را در زمانی که افراد در حال مشاهده عکس‌های اشیا، از جمله صورت و حیوانات هستند، توضیح دهند و پیامدهای عمده‌ای برای استفاده از مدل‌های یادگیری عمیق در تنظیمات دنیای واقعی، مانند خود رانندگی وسایل نقلیه را بکار گیرند .

مور می‌گوید: «این کشف سرنخ‌هایی در مورد آنچه شبکه‌های عصبی در تصاویر درک نمی‌کنند، یعنی ویژگی‌های بصری که نشان‌دهنده دسته‌بندی اشیاء مرتبط با محیط زیست مانند چهره‌ها و حیوانات هستند، ارائه می‌کند. ما پیشنهاد می‌کنیم که شبکه‌های عصبی را می‌توان به‌عنوان مدل‌هایی از مغز، با دادن تجربه یادگیری بیشتر شبیه به انسان، مانند یک رژیم آموزشی که به شدت بر فشارهای رفتاری که انسان در طول توسعه تحت آن قرار می‌گیرند، تأکید می‌کند، بهبود بخشید.»

برای مثال، برای انسان مهم است که به سرعت تشخیص دهند که آیا یک شی حیوانی است که در حال نزدیک شدن است یا خیر، و اگر چنین است، حرکت بعدی بعدی آن را پیش بینی کند. ادغام این فشارها در طول آموزش ممکن است به توانایی رویکردهای یادگیری عمیق برای مدل‌سازی بینایی انسان کمک کند.

این کار در مجله The Journal of Neuroscience منتشر شده است.

https://techxplore.com