رویکردی جدید به تصمیم گیری هوشمند در یادگیری تقویتی

1 آگوست 2023 – توسط محاسبات هوشمند

یک عامل را می توان بر حسب سه بخش که با هم کار می کنند درک کرد: بخش دانش، بخش استدلال و هدف. بخش دانش هر چیزی را که عامل از کل تاریخ خود آموخته است حفظ می کند. بخش استدلال یک فرآیند محاسباتی است که اطلاعات تازه رسیده را بر اساس دانش آموخته شده پردازش می کند. این به فشرده سازی اطلاعات در انواع مختلف دانش کمک می کند و اقداماتی را که نماینده باید انجام دهد نتیجه می گیرد. هدف چیزی است که فرآیند استدلال را جهت می دهد و با علایق دایمی عامل همسو می شود. اعتبار: Chenyang Wu et al.

مقاله جدیدی که در محاسبات هوشمند منتشر شده است، چالش های اصلی یادگیری تقویتی را برای تصمیم گیری هوشمند در محیط های پیچیده و پویا ارائه می کند.

یادگیری تقویتی نوعی از یادگیری ماشینی است که در آن یک عامل یاد می گیرد با تعامل با یک محیط تصمیم گیری کند و پاداش یا جریمه دریافت می کند.

هدف عامل این است که با تعیین بهترین اقدامات برای انجام در موقعیت های مختلف، پاداش های بلند مدت را به حداکثر برساند. با این حال، محققان Chenyang Wu و Zongzhang Zhang از دانشگاه نانجینگ متقاعد شده‌اند که روش‌های یادگیری تقویتی که صرفاً بر پاداش‌ها و مجازات‌ها متکی هستند در تولید توانایی‌های هوشمند مانند یادگیری، ادراک، تعامل اجتماعی، زبان، تعمیم و تقلید موفق نخواهند بود.

وو و ژانگ در مقاله خود آنچه را که به عنوان کاستی روش های یادگیری تقویتی فعلی می بینند شناسایی کردند. یک مسئله اصلی میزان اطلاعاتی است که باید از طریق آزمون و خطا جمع آوری شود.

برخلاف انسان‌هایی که می‌توانند از تجربیات گذشته خود برای استدلال و انتخاب بهتر استفاده کنند، روش‌های یادگیری تقویتی کنونی به شدت به عواملی متکی هستند که به طور مکرر چیزها را در مقیاس بزرگ امتحان می‌کنند تا یاد بگیرند که چگونه وظایف را انجام دهند. هنگام برخورد با مشکلاتی که شامل عوامل مختلف مؤثر بر نتیجه هستند، لازم است که نمایندگان نمونه های زیادی را برای کشف بهترین رویکرد امتحان کنند.

اگر مشکل کمی از نظر پیچیدگی افزایش یابد، تعداد نمونه‌های مورد نیاز به سرعت افزایش می‌یابد و عملکرد مؤثر را برای عامل غیرعملی می‌سازد. بدتر از آن، حتی اگر عامل تمام اطلاعات مورد نیاز برای تعیین بهترین استراتژی را داشته باشد، کشف آن همچنان بسیار سخت و زمان‌بر خواهد بود. این باعث می شود روند یادگیری کند و ناکارآمد باشد.

هم ناکارآمدی های آماری و هم ناکارآمدی محاسباتی مانع از عملی بودن دستیابی به یادگیری تقویتی عمومی از ابتدا می شود. روش‌های فعلی فاقد کارایی لازم برای باز کردن پتانسیل کامل یادگیری تقویتی در توسعه توانایی‌های متنوع بدون منابع محاسباتی گسترده هستند.

وو و ژانگ استدلال می کنند که چالش های آماری و محاسباتی را می توان با دسترسی به اطلاعات با ارزش بالا در مشاهدات غلبه کرد. چنین اطلاعاتی می تواند بهبود استراتژی را از طریق مشاهده به تنهایی، بدون نیاز به تعامل مستقیم، امکان پذیر کند. تصور کنید چقدر طول می کشد تا یک نماینده با بازی Go-به عبارت دیگر از طریق آزمون و خطا- بازی Go را یاد بگیرد.

سپس تصور کنید که یک نماینده با خواندن کتابچه راهنمای Go – به عبارت دیگر، با استفاده از اطلاعات با ارزش چقدر سریعتر می تواند یاد بگیرد. واضح است که توانایی یادگیری از مشاهدات غنی از اطلاعات برای حل موثر وظایف پیچیده دنیای واقعی بسیار مهم است.

اطلاعات با ارزش دارای دو ویژگی متمایز است که آن را متمایز می کند. اولاً، مستقل نیست و به طور یکسان توزیع شده است، به این معنی که شامل تعاملات و وابستگی های پیچیده است و آن را از مشاهدات گذشته متمایز می کند. برای درک کامل اطلاعات با ارزش، باید ارتباط آن با اطلاعات گذشته را در نظر گرفت و زمینه تاریخی آن را تصدیق کرد.

دومین ویژگی اطلاعات با ارزش، ارتباط آن با عوامل محاسباتی آگاه است. عوامل با منابع محاسباتی نامحدود ممکن است استراتژی‌های سطح بالا را نادیده بگیرند و برای استخراج رویکردهای بهینه، تنها بر قوانین سطح پایه تکیه کنند. این عوامل انتزاعات سطح بالاتر را نادیده می گیرند، که ممکن است نادرستی ایجاد کند، و کارایی محاسباتی را بر دقت اولویت می دهد.

فقط عواملی که از مبادلات محاسباتی آگاه هستند و قادر به درک ارزش اطلاعات محاسباتی مفید هستند می توانند به طور موثر از مزایای اطلاعات با ارزش بالا استفاده کنند.

برای اینکه یادگیری تقویتی بتواند از اطلاعات با ارزش استفاده بهینه کند، عوامل باید به روش های جدید طراحی شوند. وو و ژانگ با توجه به رسمیت بخشیدن به تصمیم گیری هوشمند به عنوان “یادگیری تقویتی دایمی محدود” سه مشکل اساسی را در طراحی عامل شناسایی کردند:

غلبه بر ماهیت غیر مستقل و توزیع شده یکسان جریان اطلاعات و کسب دانش در پرواز. این امر مستلزم اتصال گذشته به آینده و تبدیل جریان مداوم اطلاعات به دانش مفید برای استفاده در آینده است.
با این حال، محاسباتی محدود در خصوص منابع، به خاطر سپردن و پردازش کل تاریخ تعامل را غیرممکن می کنند. بنابراین، یک نمایش ساختار یافته دانش و الگوریتم یادگیری آنلاین برای سازماندهی تدریجی اطلاعات و غلبه بر این محدودیت ها ضروری است.
پشتیبانی از استدلال کارآمد با توجه به منابع محدود. اولاً، دانش جهانی که درک، پیش‌بینی، ارزیابی و عمل را تسهیل می‌کند، دیگر تحت محدودیت محاسباتی کافی نیست. برای پرداختن به این چالش، استدلال کارآمد مستلزم یک بازنمایی دانش ساختاریافته است که از ساختار مسئله بهره برداری می کند و به عامل به روشی خاص برای استدلال کمک می کند، که برای کارایی محاسبات ضروری است.
جنبه دوم فرآیند استدلال، تصمیم گیری متوالی است. این نقش محوری در هدایت عوامل برای تعیین اقدامات خود، پردازش اطلاعات و توسعه راهبردهای یادگیری موثر دارد. در نتیجه، استدلال فراسطحی برای به حداکثر رساندن استفاده از منابع محاسباتی ضروری است. ثالثاً، استدلال موفق مستلزم آن است که عوامل به طور مؤثر توانایی های درونی خود را با اطلاعات به دست آمده از مشاهدات بیرونی ترکیب کنند.
تعیین هدف استدلال برای اطمینان از اینکه عامل به دنبال بازدهی بلندمدت است و از هدایت صرفاً منافع کوتاه مدت اجتناب می کند. این به عنوان معضل اکتشاف – بهره برداری شناخته می شود. این شامل یافتن تعادل بین کاوش در محیط برای جمع آوری دانش جدید و بهره برداری از بهترین استراتژی ها بر اساس اطلاعات موجود است.
این معضل با در نظر گرفتن دیدگاه محاسباتی پیچیده‌تر می‌شود، زیرا عامل منابع محدودی دارد و باید بین کاوش یک روش محاسبه جایگزین و بهره‌برداری از بهترین رویکرد موجود تعادل برقرار کند. از آنجایی که کاوش همه چیز در یک محیط پیچیده غیرعملی است، عامل برای تعمیم به موقعیت های ناشناخته به دانش موجود خود تکیه می کند. حل این معضل مستلزم همسویی هدف استدلال با منافع بلندمدت عامل است. هنوز چیزهای زیادی برای درک وجود دارد، به ویژه از دیدگاه محاسباتی.

https://techxplore.com