23 سپتامبر 2021 توسط دانشگاه گرونینگن
یکی از چالشهای موجود در عصر کلانداده، برخورد با بسیاری از متغیرهای مستقل است که به عنوان «نفرین ابعاد» نیز شناخته میشوند. بنابراین، نیاز فوری به توسعه الگوریتمهایی وجود دارد که بتوانند زیرمجموعهای از ویژگیهای مرتبط و دارای قدرت پیش بینی بالا را انتخاب کنند. برای رسیدگی به این موضوع، دانشمندان کامپیوتر در دانشگاه گرونینگن یک الگوریتم جدید انتخاب ویژگی ایجاد کردند. شرح و اعتبار روش آنها در مجله Expert Systems with Applications در 16 سپتامبر 2021 منتشر شد.
توانایی انتخاب کوچکترین و مرتبطترین زیرمجموعه ویژگیها به دلایل مختلف مطلوب است. اول، آنالیز سریعتر و در نتیجه مقیاسپذیرتر را امکان پذیر میکند. ثانیاً، این امر باعث جمع آوری و ذخیره اطلاعات ارزانتر میشود. ثالثاً، توضیح بهتر در تعامل بین ویژگیهای انتخاب شده را تسهیل میکند.
جورج آزوپردی، استادیار علوم کامپیوتر در دانشگاه گرونینگن میگوید: «این تصور غلطی است که هرچه امکانات بیشتری اضافه کنیم، اطلاعات بیشتری برای قضاوت بهتر داریم. شرایطی وجود دارد که برخی از ویژگیها ممکن است برای کار مورد نظر کاملاً بیربط یا مازاد باشد. علاوه بر این، کار توضیح نتیجه تصمیم گیری که توسط یک الگوریتم رایانه انجام میشود با افزایش تعداد متغیرهای مستقل پیچیدهتر میشود.»
فعل و انفعالات
احمد الصحاف، محقق فوق دکتری در UMCG و نویسنده مقاله میگوید: «انتخاب ویژگی به طور گستردهای مورد استفاده قرار میگیرد و با استفاده از روشهای مختلف به دست میآید.» شناسایی ویژگیهای مناسب بسیار چالش برانگیز است، مانند یافتن سوزن در انبار کاه است. یک رویکرد ساده لوحانه برای انتخاب بهترین زیرمجموعه، انتخاب نیروی بیرحم است که همه ترکیبات احتمالی ویژگیها را ارزیابی میکند. وی میگوید: «با این حال، این رویکرد برای تعداد زیادی از ویژگیها قابل کنترل نیست.» سایر رویکردها، به عنوان مثال، از روشهای آماری برای اندازه گیری اهمیت هر یک از ویژگیهای فردی با توجه به متغیر وابسته استفاده میکنند.
آزوپردی توضیح میدهد: «در حالی که چنین رویکردهایی بسیار سریع هستند، آنها تعامل احتمالی بین متغیرهای مستقل را در نظر نمیگیرند. به عنوان مثال، در حالی که دو متغیر مستقل ممکن است از قدرت تفکیک بسیار پایینی برخوردار باشند، در صورت در نظر گرفتن آنها میتوانند قدرت پیش بینی بسیار قوی داشته باشند.
الصحاف افزود: «یک مثال رایج، تعامل ژنهای معرفتی است، جایی که وجود یک ژن بر بیان ژن دیگر تأثیر میگذارد. الگوریتمهای انتخاب ویژگی باید بتوانند چنین برهم کنشهایی را تشخیص دهند.»
تقویت
دانشمندان رایانه یک الگوریتم جدید انتخاب ویژگی طراحی کردند که متکی بر چیزی است که به عنوان تقویت کننده شناخته میشود و آن را FeatBoost نامیدند. الصحاف میگوید: «آنها از یک مدل مبتنی بر درخت تصمیم برای انتخاب مرتبطترین ویژگیها استفاده میکنند. ما متعاقباً یک مدل طبقه بندی را با استفاده از ویژگیهای انتخاب شده ایجاد و ارزیابی میکنیم. به هر نمونهای که به اشتباه طبقهبندی شود در تعیین مجموعه بعدی تاکید بیشتری میشود. از جمله ویژگیهای مرتبط، فرآیندی به نام تقویت کننده است. این مراحل تا زمانی که عملکرد مدل طبقه بندی نتواند پیشرفت بیشتری انجام دهد، تکرار میشوند.»
در این مقاله، دانشمندان اثربخشی الگوریتم خود را بر روی مجموعه دادههای مختلف معیار با خواص مختلف نشان داده و نشان میدهند که چگونه از سایر روشهای معروف مانند Boruta و ReliefF برتری دارد. به طور خاص، آنها ادعا میکنند که الگوریتم آنها به دقت بالاتری با ویژگیهای کمتر در اکثر مجموعه دادههایی که برای ارزیابی استفاده کردهاند، دست مییابد.