14 آگوست 2023 -توسط Beijing Zhongke Journal Publising Co.-برخی از اساسی ترین معیارها برای ارزیابی جالب بودن قوانین انجمن. اعتبار: تحقیقات هوش ماشینی
دانش کاوی یک حوزه تحقیقاتی فعال در سراسر رشته هایی مانند پردازش زبان طبیعی (NLP)، داده کاوی (DM) و یادگیری ماشینی (ML) است. هدف کلی استخراج دانش از منبع داده، ایجاد یک نمایش ساختاریافته است که به محققان اجازه می دهد چنین داده هایی را بهتر درک کنند و بر اساس آن برای ساخت برنامه های کاربردی کار کنند.
هر یک از رشته های ذکر شده با حجم وسیعی از تحقیقات، روش های مختلفی را پیشنهاد کرده اند که می توانند برای انواع داده های مختلف اعمال شوند. تعداد قابل توجهی نظرسنجی برای خلاصه کردن کارهای تحقیقاتی در هر رشته انجام شده است. با این حال، هیچ نظرسنجی یک بررسی بین رشتهای ارائه نکرده است که در آن ویژگیهایی از زمینههای مختلف برای تحریک بیشتر ایدههای تحقیقاتی و تلاش برای ایجاد پلهایی میان این زمینهها در معرض دید قرار گرفتهاند. در این کار که در تحقیقات هوش ماشینی منتشر شده است، محققان چنین نظرسنجی را ارائه می دهند.
استخراج خودکار دانش از منابع مختلف داده یک کار چالش برانگیز در زمینه های مختلف است. به عنوان مثال، در پردازش زبان طبیعی (NLP)، تحقیق در مورد استخراج پایگاه های دانش ساختاریافته از متن زبان طبیعی به دلیل کاربردهای آن بسیار مورد توجه قرار گرفته است.
در داده کاوی (DM)، حوزه وسیعی از تحقیقات بر روی قوانین کاوی از پایگاههای داده ساختاریافته متمرکز شده است که میتواند به افراد کمک کند تا ارتباطهای جدید بین آیتمها یا ویژگیها را کشف کنند و در زمینههای مختلف مانند کسبوکار یا آموزش تصمیم بگیرند.
علاوه بر این، در زمینه یادگیری ماشین (ML)، تلاشهای زیادی برای استخراج دانش، عمدتاً در قالب قوانین منطقی، از پیشبینیها و پارامترهای سیستم یادگیری ماشین به منظور ایجاد یک نمایش قابل تفسیر که به توضیح تصمیمات سیستم (به اصطلاح مشکل تفسیرپذیری)؛ به عنوان مثال، سناریویی که در پزشکی بسیار مورد توجه قرار گرفته است.
استخراج دانش از داده ها (اعم از داده های بدون ساختار، ساختاریافته یا رفتاری) یک مشکل باز است که در زمینه های مختلف تحقیقاتی با آن مقابله شده است. این سناریوی گسترده نه تنها به تعاریف و راههای متفاوتی برای بازنمایی سازه دانش (و در نتیجه تعریف تکلیف دانش کاوی) منجر شده است، بلکه به دیدگاههای پژوهشی متنوعی منجر شده است که به نظر میرسد از روشهای متفاوتی برای استخراج دانش و معیارهای مختلف برای ارزیابی سازگاری دانش استخراج شده استفاده میکنند..
از سوی دیگر، در زمینه NLP، یک پایگاه دانش معمولاً به عنوان یک ساختار تانسور نشان داده میشود که در آن هر ورودی معمولاً با یک تخصیص احتمالی از باور یک واقعیت مطابقت دارد.
در نهایت، در زمینه یادگیری ماشینی، مشکل دانش کاوی با مشکل تلاش برای درک و اعتبارسنجی سیستمهای ML ایجاد شده است که به دلیل پیچیدگی آنها به راحتی قابل بازرسی دستی نیستند. به طور مشابه، انتخاب بازنمایی دانش محدود شده است تا برای انسان قابل درک باشد، جایی که یک نمایش رایج و پذیرفته شده در این زمینه قوانین منطقی است.
از این بررسی اجمالی از دانش کاوی در سراسر زمینه ها، می توان مشاهده کرد که تنوع اهداف و سازه ها و سناریوهای گسترده ای که محققان در ابتدا ادعا کردند، که آنها را به این سؤال هدایت می کند: دانش کاوی در بین زمینه های تحقیقاتی چگونه مشخص می شود؟ رویکردهای پیشنهادی و ویژگی های مشترک آنها چیست؟ و چگونه محققان می توانند آنها را تجمیع کنند؟
محققان خاطرنشان می کنند که در حال حاضر چندین بررسی عمیق در ادبیات هر زمینه وجود دارد که روش ها و الگوریتم های استخراج دانش را نشان می دهد، فرض بر این است که هیچ نظرسنجی وجود نداشته باشد که به طور مشترک این حوزه های تحقیقاتی را برای پاسخ به سؤالات فوق طی کند.
علاوه بر این، اهمیت دانش در زمینه های مختلف نفوذ کرده و صنعت را نیز تحت تاثیر قرار داده است. بنابراین، محققان بر این باورند که بررسی ادبیات بین رشتهای، در یک رویکرد چشمانداز محور، که تمام این درجات مختلف آزادی را که زمینه مشکل استخراج دانش از دادهها را در بر میگیرد، در جریان است.
در این مقاله، بهجای بررسی انبوهی از روشها و کارهای قبلی در این سه حوزه تحقیقاتی، محققان قصد دارند تا تفاوتهای ظریف، و ویژگیهای خاص پیوسته، رویکردهای اتخاذ شده برای استخراج دانش از یک منبع داده هدف را مرور کنند.
از این رو، این مقاله از یک مرور کلی از مشکل استخراج دانش در زمینههای پردازش زبان طبیعی، دادهکاوی و یادگیری ماشینی برای نشان دادن اهداف، روشها و ارزیابیهای کلیدی آنها و اینکه چگونه برخی از کارهای قبلی پیوندهایی بین این حوزهها برای وظیفه دانش کاوی ایجاد کردهاند، حمایت میکند.
هدف نهایی این مقاله برانگیختن ایدهها و برنامههای تحقیقاتی جدید در میان محققان رشتههای مختلف است تا پلهای جدیدی در میان حوزههای مورد بررسی برای پیشرفت بیشتر در کار دانش کاوی پدیدار شود. با پیروی از این رویکرد، محققان از ارائه یک تعریف واحد از دانش و دانش کاوی اجتناب میکنند و بیشتر نشان میدهند که چگونه این سازهها در سراسر زمینهها مورد استقبال قرار گرفتهاند. بنابراین، محققان از یک نقطه شروع مشترک در همه زمینه ها دور می شوند. آنها انتخاب بازنمایی دانش را به منطق یا فرمولهای منطقمانند، که نمایشی است که در این زمینهها بسیار استفاده میشود، تثبیت میکنند.
بر اساس این بازنمایی دانش، در بخشهای 2 تا 4، محققان اهداف مختلف و رویکردهای کلیدی هر حوزه را در یک دیدگاه مسئلهمحور دنبال میکنند تا بینشی دقیق در مورد چگونگی تجسم کاوی دانش و چه ویژگیهایی در این زمینه پیدا کنند. زمینه های تحقیقاتی بخش 2 در مورد استخراج دانش از متن زبان طبیعی است که شامل شش بخش است.
اولاً، محققان مقدماتی از روشها و مدلهای پیشرفته در NLP ارائه میکنند. ثانیاً، آنها رایجترین رویکردهای یادگیری را برای استخراج اطلاعات معرفی میکنند، یعنی یادگیری تحت نظارت (طبقهبندی و برچسبگذاری توالی)، یادگیری با نظارت از راه دور، و یادگیری بدون نظارت.
سپس، آنها شرحی از دو مشکل اینترنت اکسپلورر که در جامعه NLP بسیار مورد توجه قرار گرفتهاند، یعنی شناسایی موجودیت در بخش 3 و استخراج رابطه در بخش 4، و همچنین روشهایی برای ارزیابی عملکرد یک سیستم NLP از این وظایف در بخش 5 در هر مورد ارائه میکنند.. در نهایت، محققان برخی از چالش های فعلی در NLP مربوط به مشکل IE را در بخش آخر بررسی می کنند.
بخش 3 در مورد دانش کاوی از پایگاه های داده تراکنش است که شامل چهار بخش است: بخش 1 برخی از رویکردهای اصلی به مشکل تولید مکرر مجموعه اقلام را بررسی می کند. بخش 2 به استخراج قوانین جمعی اشاره دارد. بخش 3 روش هایی را برای اصلاح و ارزیابی قوانین نامزد نشان می دهد و بخش 4 در مورد چالش های فعلی است.
بخش 4 در مورد استخراج دانش از سیستم های یادگیری ماشینی است. در این بخش، محققان رویکردهای مختلفی را برای استخراج دانش آموخته شده توسط سیستمهای پیچیده ML، که به سیستمهای جعبه سیاه نیز معروف هستند، به دلیل تفسیر ناپذیری ارائه میکنند.
مشابه بخشهای قبلی، پژوهشگران عمدتاً آثاری را در ادبیات هدف قرار میدهند که دانش استخراجشده در قالب قواعد منطقی است (این یکی از محبوبترین انواع بازنمایی دانش در ادبیات تفسیرپذیری است). بیشتر سیستمهای جعبه سیاهی که در این بخش بررسی میکنند، به دلیل استقبال گسترده و استفاده از آنها در ML و زمینههای مرتبط، شبکههای عصبی هستند.
در همه زمینه ها مشخص می کند، یعنی اهداف، روش ها، جهت گیری تحقیق، داده ها و ارزیابی ها. در ادامه، آنها مقایسه ای از مشکل کاوی دانش برای زمینه های NLP، DM و ML در این پنج ویژگی ارائه می دهند.
در نهایت، آنها چیزی را ارائه میکنند که معتقدند یک مسیر تحقیقاتی بلندمدت برای استخراج دانش است. محققان بر این باورند که این مقاله به ایجاد جهتهای تحقیقاتی آینده برای کار دانش کاوی کمک خواهد کرد که سه حوزه تحقیقاتی NLP، DM و ML را در بر میگیرد.