19 مه 2022 -توسط موسسه بین المللی تحلیل سیستم های کاربردی -اعتبار: CC0 دامنه عمومی
در سالهای اخیر، جمعسپاری، که شامل بکارگیری عمومی برای کمک به جمعآوری دادهها میشود، برای ارائه مجموعه دادههای منحصربهفرد و غنی به محققان بسیار مفید بوده و در عین حال مردم را در فرآیند اکتشافات علمی درگیر میکند. در یک مطالعه جدید، یک تیم بین المللی از محققان بررسی کرده اند که چگونه پروژه های جمع سپاری می توانند بیشترین استفاده را از مشارکت های داوطلبانه داشته باشند.
فعالیتهای جمعآوری دادهها از طریق جمعسپاری از فعالیتهای میدانی مانند تماشای پرندگان تا فعالیتهای آنلاین مانند طبقهبندی تصاویر برای پروژههایی مانند تصاویر مشابه حیوانات در کهکشان، که در آن شرکتکنندگان اشکال کهکشانها را طبقهبندی میکنند، متغیر است. و Geo-Wiki، که در آن تصاویر ماهواره ای برای پوشش زمین، کاربری زمین، و شاخص های اجتماعی-اقتصادی تفسیر می شوند. با این حال، دریافت ورودی از تعداد زیادی از شرکتکنندگان که مجموعهای از تصاویر را تجزیه و تحلیل میکنند، سؤالاتی را در مورد اینکه پاسخهای ارسالی واقعاً چقدر دقیق هستند، ایجاد میکند. در حالی که روشهایی برای اطمینان از صحت دادههای جمعآوریشده به این روش وجود دارد، آنها اغلب پیامدهایی برای فعالیتهای جمعسپاری مانند طراحی نمونهگیری و هزینههای مرتبط دارند.
محققان IIASA و همکاران بینالمللی در مطالعه خود که به تازگی در مجله PLoS ONE منتشر شده است، با بررسی تعداد رتبهبندی یک کار قبل از اینکه محققان بتوانند به طور منطقی از پاسخ صحیح مطمئن شوند، سؤال صحت را بررسی کردند.
بسیاری از انواع تحقیقات با مشارکت عمومی شامل واداشتن داوطلبان به طبقه بندی تصاویری است که تشخیص آنها برای رایانه ها به روشی خودکار دشوار است. با این حال، زمانی که یک کار باید توسط افراد زیادی تکرار شود، باعث می شود وظایف را به افرادی که آنها را انجام می دهند واگذار کنند.
کارل سالک، یکی از فارغ التحصیلان دانشگاه، برنامه تابستانی دانشمندان جوان IIASA (YSSP) و همکار طولانی مدت IIASA که در حال حاضر با دانشگاه علوم کشاورزی سوئد مرتبط است توضیح می دهد که اگر در مورد پاسخ صحیح مطمئن باشید، کارآمدتر است. این امر به این معنی است که زمان کمتری از داوطلبان یا ارزیاب های پولی تلف می شود و دانشمندان یا سایرینی که این کارها را درخواست می کنند، می توانند از منابع محدودی که در دسترس هستند، بیشتر به دست آورند.
محققان سیستمی را برای تخمین احتمال اشتباه بودن پاسخ اکثریت به یک کار توسعه دادند و سپس زمانی که این احتمال به اندازه کافی کم شد یا احتمال دریافت پاسخ واضح کم شد، کار را به داوطلبان جدید واگذار نکردند. آنها این فرآیند را با استفاده از مجموعه ای از بیش از 4.5 میلیون طبقه بندی منحصر به فرد توسط 2783 داوطلب از بیش از 190000 تصویر که برای حضور یا عدم وجود زمین های زراعی ارزیابی شده بودند، نشان دادند. نویسندگان خاطرنشان میکنند که اگر سیستم آنها در کمپین اصلی جمعآوری دادهها پیادهسازی میشد، نیاز به 59.4 درصد از رتبهبندی داوطلبان را از بین میبرد، و اگر تلاش برای کارهای جدید اعمال میشد، بیش از دو برابر میشد. تعداد تصاویری که باید با همان مقدار کار طبقه بندی شوند. این نشان میدهد که این روش چقدر میتواند در استفاده مؤثرتر از مشارکتهای داوطلبانه محدود مؤثر باشد.
به گفته محققان، این روش را می توان تقریباً برای هر موقعیتی که به طبقه بندی بله یا خیر (دودویی) نیاز است، اعمال کرد و ممکن است پاسخ چندان واضح نباشد. مثالها میتواند شامل طبقهبندی انواع دیگر استفاده از زمین باشد، به عنوان مثال: “آیا جنگل در این تصویر وجود دارد؟” شناسایی گونه ها، با پرسیدن “آیا پرنده ای در این تصویر وجود دارد؟” یا حتی کارهای «ReCaptcha» که برای متقاعد کردن وبسایتها مبنی بر انسان بودن ، انجام میدهیم، مانند «آیا چراغ توقفی در این تصویر وجود دارد؟» این کار همچنین می تواند به پاسخگویی بهتر به سوالاتی که برای سیاست گذاران مهم هستند، کمک کند، مانند اینکه چه مقدار زمین در جهان برای کشت محصولات استفاده می شود.
“از آنجایی که دانشمندان داده به طور فزاینده ای به تکنیک های یادگیری ماشین برای طبقه بندی تصاویر روی می آورند، استفاده از جمع سپاری برای ساخت کتابخانه های تصویری برای آموزش همچنان اهمیت پیدا می کند. این مطالعه نحوه بهینه سازی استفاده از جمعیت را برای این منظور توصیف می کند و راهنمایی روشنی را برای زمان تمرکز مجدد ارائه می دهد. تلاشهایی که زمانی که سطح اطمینان لازم به دست میآید یا طبقهبندی یک تصویر خاص بسیار دشوار است، نتیجهگیری میکند.”