13 مه 2024 -توسط ژانگ نانان، آکادمی علوم چین-انتقال دانش مبتنی بر کلیپ پیشنهادی و زمینه کاوی رابطهای (CKT-RCM). اعتبار: وانگ فن
به سرپرستی پروفسور لیو یونگ از انستیتوهای علوم فیزیکی Hefei آکادمی علوم چین، محققان چارچوب جدیدی به نام انتقال دانش مبتنی بر کلیپ و زمینه کاوی رابطه ای (CKT-RCM) را برای رسیدگی به مشکل در بینایی کامپیوتر پیشنهاد کرده اند.
نتایج در کنفرانس بین المللی IEEE در آکوستیک، گفتار و پردازش سیگنال منتشر شد.
نمودار صحنه پانوپتیک (PSG) یک جهت تحقیقاتی برجسته در تولید نمودار صحنه است که به خروجی جامع همه روابط در یک تصویر در کنار تقسیم بندی دقیق برای محلی سازی شی نیاز دارد. هدف PSG بهبود درک صحنه ها توسط مدل های بینایی کامپیوتری و پشتیبانی از وظایف پایین دستی مانند توصیف صحنه و استنتاج بصری است.
در این مطالعه، محققان با ارائه دو دیدگاه کلیدی، چگونگی درک انسان از روابط شی را بررسی کردند. مردم روابط ابژه را بر اساس عقل سلیم یا دانش قبلی پیش بینی می کردند. آنها همچنین روابط مبتنی بر اطلاعات زمینه ای بین سوژه ها و اشیا را استنباط کردند.
این دیدگاه ها بر اهمیت استفاده از دانش قبلی تأکید می کنند: یکی شامل تصحیح سوگیری های داده با استفاده از داده های خارجی است که قبلاً توسط انسان مشاهده شده است، در حالی که دیگری بر توزیع قبلی شرایط بین اشیا متکی است.
دکتر وانگ فن، یکی از اعضای تیم، گفت: «بنابراین، ما معتقدیم که دانش قبلی و اطلاعات زمینهای کافی برای پیشبینی PSG بسیار مهم است.
آنها این چارچوب شبکه CKT-RCM را توسعه دادند. بر اساس مدل زبان بینایی CLIP از قبل آموزش دیده، CKT-RCM استنتاج رابطه را در طول فرآیندهای PSG تسهیل می کند. این یک مکانیسم توجه متقابل را برای استخراج زمینه رابطه ای ادغام می کند و از تعادل بین ارزش و کیفیت در پیش بینی های رابطه ای اطمینان می دهد.
این مطالعه به درک صحنه ها توسط روبات ها و وسایل نقلیه خودران کمک می کند.