30 سپتامبر 2024 -توسط راشل گوردون، موسسه فناوری ماساچوست-مجموعه داده “Faces in Things” مجموعه ای جامع و دارای برچسب انسانی از بیش از 5000 تصویر پاریدولیک است. این تیم تحقیقاتی الگوریتمهای تشخیص چهره را آموزش دادند تا چهرهها را در این تصاویر ببینند و بینشی را در مورد چگونگی یادگیری انسانها برای تشخیص چهرهها در محیط اطرافشان ارائه کردند. اعتبار: Alex Shipps/MIT CSAIL
در سال 1994، دیانا دویسر، طراح جواهرات فلوریدا، تصویر مریم باکره را در یک ساندویچ پنیر کبابی کشف کرد که آن را حفظ کرد و بعداً به قیمت 28000 دلار به حراج گذاشت. اما واقعاً چقدر در مورد پاریدولیا، پدیده دیدن چهرهها و الگوها در اجسام در حالی که واقعاً وجود ندارند، درک میکنیم؟
یک مطالعه جدید از آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT (CSAIL) به این پدیده می پردازد و مجموعه داده گسترده ای با برچسب انسانی از 5000 تصویر پاریدولیک را معرفی می کند که بسیار فراتر از مجموعه های قبلی است. با استفاده از این مجموعه داده، تیم چندین نتیجه شگفتانگیز در مورد تفاوتهای بین ادراک انسان و ماشین و اینکه چگونه توانایی دیدن چهرهها در یک تکه نان تست ممکن است جان بستگان دور شما را نجات دهد، کشف کردند.
این مطالعه در سرور preprint arXiv منتشر شده است.
مارک همیلتون، دکترای MIT میگوید: «پاریدولیا چهره مدتهاست که روانشناسان را مجذوب خود کرده است، اما تا حد زیادی در جامعه بینایی رایانهای ناشناخته مانده است». ما میخواستیم منبعی ایجاد کنیم که بتواند به ما کمک کند تا بفهمیم انسانها و سیستمهای هوش مصنوعی چگونه این چهرههای واهی را پردازش میکنند.»
پس این همه چهره های جعلی چه چیزی را فاش کردند؟ به عنوان مثال، به نظر نمی رسد مدل های هوش مصنوعی مانند ما چهره های پاریدولیک را تشخیص دهند. با کمال تعجب، این تیم متوجه شد که تا زمانی که الگوریتمهایی را برای تشخیص چهره حیوانات آموزش دادند، در تشخیص چهرههای پاریدولیک بسیار بهتر شدند. این ارتباط غیرمنتظره به یک پیوند تکاملی احتمالی بین توانایی ما در تشخیص چهره حیوانات -که برای بقا ضروری است- و تمایل ما به دیدن چهره در اجسام بیجان اشاره دارد.
همیلتون میگوید: «به نظر میرسد نتیجهای مانند این نشان میدهد که پاریدولیا ممکن است ناشی از رفتار اجتماعی انسان نباشد، بلکه از چیزی عمیقتر ناشی میشود: مانند تشخیص سریع یک ببر در کمین، یا تشخیص اینکه آهو به چه سمتی نگاه میکند تا اجداد اولیه ما بتوانند شکار کنند».
کشف جالب دیگر چیزی است که محققان آن را “منطقه طلایی پاریدولیا” می نامند، دسته ای از تصاویر که در آن پاریدولیا به احتمال زیاد رخ می دهد.
ویلیام تی فریمن، استاد مهندسی برق و علوم کامپیوتر MIT و محقق اصلی این پروژه میگوید: «محدوده خاصی از پیچیدگی بصری وجود دارد که در آن انسانها و ماشینها به احتمال زیاد چهرهها را در اجسام غیر چهره درک میکنند». خیلی ساده است و جزئیات کافی برای شکل دادن به یک چهره وجود ندارد. خیلی پیچیده است و به نویز بصری تبدیل می شود.
برای کشف این موضوع، این تیم معادله ای را توسعه دادند که نحوه تشخیص چهره های واهی توسط افراد و الگوریتم ها را مدل می کند. هنگام تجزیه و تحلیل این معادله، آنها یک “قله پاریدولیک” واضح پیدا کردند که در آن احتمال دیدن چهره ها در بالاترین حد است، که مربوط به تصاویری است که “فقط به میزان مناسب” پیچیدگی دارند. سپس این «منطقه طلایی» پیشبینیشده در آزمایشهایی با افراد واقعی و سیستمهای تشخیص چهره با هوش مصنوعی تأیید شد.
این مجموعه داده جدید، “چهره ها در اشیا”، نتایج مطالعات قبلی را که معمولاً فقط از 20 تا 30 محرک استفاده می کردند، کوچکتر می کند. این مقیاس به محققان این امکان را داد تا چگونگی رفتار الگوریتمهای پیشرفته تشخیص چهره را پس از تنظیم دقیق روی چهرههای پاریدولیک بررسی کنند و نشان دهد که نه تنها میتوان این الگوریتمها را برای تشخیص این چهرهها ویرایش کرد، بلکه میتوانند به عنوان یک سیلیکون نیز عمل کنند. برای مغز خودمان ایستاده و به تیم اجازه میدهد درباره منشأ تشخیص چهره پاریدولیک سؤالاتی بپرسد و به آنها پاسخ دهد که پرسیدن آنها در انسان غیرممکن است.
برای ساخت این مجموعه داده، این تیم تقریباً 20000 تصویر کاندید از مجموعه داده LAION-5B را انتخاب کردند که سپس به دقت برچسب گذاری شدند و توسط حاشیه نویسان انسانی مورد قضاوت قرار گرفتند. این فرآیند شامل ترسیم جعبههای مرزی در اطراف چهرههای درکشده و پاسخگویی به سؤالات دقیق در مورد هر چهره، مانند احساس درک شده، سن، و تصادفی یا عمدی بودن چهره بود.
همیلتون میگوید: «جمعآوری و حاشیهنویسی هزاران تصویر یک کار بزرگ بود. بسیاری از مجموعه دادهها وجود خود را مدیون مادرم است، یک بانکدار بازنشسته، که ساعتهای بیشماری را صرف برچسبگذاری تصاویر برای تجزیه و تحلیل ما کرد.
این مطالعه همچنین کاربردهای بالقوهای در بهبود سیستمهای تشخیص چهره با کاهش موارد مثبت کاذب دارد که میتواند پیامدهایی برای زمینههایی مانند خودروهای خودران، تعامل انسان و رایانه و روباتیک داشته باشد. مجموعه دادهها و مدلها همچنین میتوانند به حوزههایی مانند طراحی محصول کمک کنند، جایی که درک و کنترل pareidolia میتواند محصولات بهتری ایجاد کند.تصور کنید که بتوانید به طور خودکار طراحی ماشین یا اسباب بازی کودک را تغییر دهید تا دوستانه تر به نظر برسد یا اطمینان حاصل کنید که یک دستگاه پزشکی این کار را نمی کند.
همیلتون میگوید بهطور ناخواسته تهدیدآمیز به نظر میرسد.
“این شگفت انگیز است که چگونه انسان ها به طور غریزی اشیاء بی جان را با ویژگی های انسان مانند تفسیر می کنند. به عنوان مثال، وقتی به پریز برق نگاه می کنید، ممکن است بلافاصله آن را در حال آواز خواندن تصور کنید، و حتی می توانید تصور کنید که چگونه “لب هایش را حرکت می دهد.” با این حال، الگوریتمها بهطور طبیعی این چهرههای کارتونی را مانند ما تشخیص نمیدهند.»
“این سؤالات جالبی را ایجاد می کند: دلیل این تفاوت بین درک انسان و تفسیر الگوریتمی چیست؟ آیا پاریدولیا مفید است یا مضر؟ چرا الگوریتم ها مانند ما این تأثیر را تجربه نمی کنند؟ این سؤالات جرقه تحقیقات ما را برانگیخت، همانطور که این پدیده روانشناختی کلاسیک در انسان داشت. به طور کامل در الگوریتم ها کاوش نشده است.”
همانطور که محققان آماده می شوند تا مجموعه داده های خود را با جامعه علمی به اشتراک بگذارند، آنها از قبل به آینده نگاه می کنند. کار آینده ممکن است شامل آموزش مدلهای زبان بینایی برای درک و توصیف چهرههای پاریدولیک باشد که به طور بالقوه منجر به سیستمهای هوش مصنوعی میشود که میتوانند با محرکهای بصری به روشهایی شبیه به انسان درگیر شوند.
پیترو پرونا، پروفسور آلن ای. پوکت، استاد مهندسی برق در Caltech، که در این کار دخالتی نداشت، می گویداین یک مقاله لذت بخش است! خواندن آن سرگرم کننده است و من را به فکر وا می دارد. همیلتون و همکاران یک سوال وسوسه انگیز را مطرح می کنند: چرا ما چهره ها را در اشیا می بینیم؟”
“همانطور که آنها اشاره می کنند، یادگیری از مثال ها، از جمله چهره حیوانات، تنها نیمه راه را برای توضیح این پدیده طی می کند. شرط می بندم که فکر کردن به این سوال چیز مهمی را در مورد نحوه تعمیم سیستم بینایی ما فراتر از آموزش هایی که در طول زندگی دریافت می کند، به ما می آموزد. “