محققان یک الگوریتم یادگیری فرا-تقویتی برای کنترل علائم ترافیکی ایجاد کردند

11 نوامبر 2022 -توسط دانشگاه چانگ آنگ-اعتبار: Unsplash/CC0 دامنه عمومی

کنترل سیگنال ترافیک بر زندگی روزمره مردم ساکن در مناطق شهری تأثیر می گذارد. سیستم موجود بر یک کنترل کننده مبتنی بر نظریه یا قانون متکی است که مسئول تغییر چراغ های راهنمایی بر اساس شرایط ترافیکی است. هدف کاهش تأخیر وسیله نقلیه در شرایط ترافیکی غیراشباع و به حداکثر رساندن توان خودرو در هنگام ازدحام است.

با این حال، کنترل کننده سیگنال ترافیک موجود نمی تواند چنین اهدافی را برآورده کند و یک کنترل کننده انسانی تنها می تواند چند تقاطع را مدیریت کند. با توجه به این موضوع، پیشرفت‌های اخیر در هوش مصنوعی بر فعال کردن راه‌های جایگزین برای کنترل علائم ترافیکی متمرکز شده است.

تحقیقات فعلی در این زمینه الگوریتم‌های یادگیری تقویتی (RL) را به عنوان یک رویکرد ممکن بررسی کرده‌اند. با این حال، الگوریتم‌های RL به دلیل ماهیت پویای محیط‌های ترافیکی همیشه کار نمی‌کنند، به عنوان مثال، ترافیک در یک تقاطع به شرایط ترافیکی در سایر اتصالات نزدیک بستگی دارد. در حالی که RL چندعاملی می‌تواند با این مسئله تداخل مقابله کند، با افزایش تقاطع‌ها، از ابعاد رو به رشد نمایی رنج می‌برد.

اخیراً تیمی از محققان دانشگاه Chung Ang در کره به سرپرستی پروفسور Keemin Sohn مدل متا-RL را برای حل این مشکل پیشنهاد کردند. به طور خاص، این تیم یک مدل متا-RL مبتنی بر زمینه (EDQN) برای کنترل سیگنال ترافیک توسعه داده است.

پروفسور سون در مورد مطالعه آنها که در Computer-Aided Civil and Infrastructure Engineering منتشر شده است، توضیح می دهد.

مطالعات موجود الگوریتم‌های متا-RL را بر اساس هندسه تقاطع، فازهای سیگنال ترافیکی یا شرایط ترافیک ابداع کرده‌اند. تحقیق حاضر به جنبه غیر ثابت کنترل سیگنال با توجه به سطوح تراکم می‌پردازد. متا-RL به طور مستقل در تشخیص ترافیک کار می‌کند.

مدل به صورت زیر عمل می کند. با استفاده از یک متغیر پنهان که وضعیت کلی محیط را نشان می دهد، وضعیت ترافیک را – اشباع یا غیر اشباع – تعیین می کند. بر اساس جریان ترافیک، مدل یا توان عملیاتی را به حداکثر می‌رساند یا تاخیرهای مشابه کنترل‌کننده انسانی را به حداقل می‌رساند. این کار را با اجرای فازهای سیگنال ترافیکی (عمل) انجام می دهد.

مانند عوامل یادگیری هوشمند، عمل با ارائه یک “پاداش” کنترل می شود. در اینجا، تابع پاداش به ترتیب 1+ یا -1 است که به ترتیب مربوط به عملکرد بهتر یا بدتر در مدیریت ترافیک نسبت به بازه قبلی است. علاوه بر این، EDQN به عنوان یک رمزگشا برای کنترل مشترک سیگنال های ترافیکی برای تقاطع های متعدد عمل می کند.

به دنبال توسعه نظری آن، محققان الگوریتم متا-RL خود را با استفاده از Vissim v21.0، شبیه‌ساز ترافیک تجاری، آموزش و آزمایش کردند تا شرایط ترافیکی دنیای واقعی را تقلید کنند. علاوه بر این، یک شبکه حمل و نقل در جنوب غربی سئول متشکل از 15 تقاطع به عنوان یک بستر آزمایشی در دنیای واقعی انتخاب شد. پس از فراآموزش، این مدل می‌تواند بدون تنظیم پارامترهای خود، با وظایف جدید در طول فراآزمایش سازگار شود.

آزمایش‌های شبیه‌سازی نشان داد که مدل پیشنهادی می‌تواند وظایف کنترلی (از طریق انتقال) را بدون هیچ گونه اطلاعات صریح ترافیک تغییر دهد. همچنین می تواند بین پاداش ها بر اساس سطح اشباع شرایط ترافیک تفاوت قائل شود. علاوه بر این، مدل متا-RL مبتنی بر EDQN از الگوریتم‌های موجود برای کنترل علائم ترافیکی بهتر عمل کرد و می‌توان آن را به وظایفی با انتقال‌ها و پاداش‌های مختلف گسترش داد.

با این وجود، محققان به نیاز به الگوریتم دقیق‌تری برای در نظر گرفتن سطوح مختلف اشباع از تقاطع به تقاطع اشاره کردند. “تحقیقات موجود از یادگیری تقویتی برای کنترل علائم ترافیکی با یک هدف ثابت استفاده کرده است. در مقابل، این کار کنترل کننده ای ابداع کرده است که می تواند به طور مستقل هدف بهینه را بر اساس آخرین وضعیت ترافیک انتخاب کند. این چارچوب، در صورتی که توسط آژانس های کنترل علائم ترافیکی اتخاذ شود. پروفسور سون نتیجه می گیرد که می تواند مزایای سفر را به همراه داشته باشد که قبلاً هرگز تجربه نشده بود.

https://techxplore.com