11 نوامبر 2022 -توسط دانشگاه چانگ آنگ-اعتبار: Unsplash/CC0 دامنه عمومی
کنترل سیگنال ترافیک بر زندگی روزمره مردم ساکن در مناطق شهری تأثیر می گذارد. سیستم موجود بر یک کنترل کننده مبتنی بر نظریه یا قانون متکی است که مسئول تغییر چراغ های راهنمایی بر اساس شرایط ترافیکی است. هدف کاهش تأخیر وسیله نقلیه در شرایط ترافیکی غیراشباع و به حداکثر رساندن توان خودرو در هنگام ازدحام است.
با این حال، کنترل کننده سیگنال ترافیک موجود نمی تواند چنین اهدافی را برآورده کند و یک کنترل کننده انسانی تنها می تواند چند تقاطع را مدیریت کند. با توجه به این موضوع، پیشرفتهای اخیر در هوش مصنوعی بر فعال کردن راههای جایگزین برای کنترل علائم ترافیکی متمرکز شده است.
تحقیقات فعلی در این زمینه الگوریتمهای یادگیری تقویتی (RL) را به عنوان یک رویکرد ممکن بررسی کردهاند. با این حال، الگوریتمهای RL به دلیل ماهیت پویای محیطهای ترافیکی همیشه کار نمیکنند، به عنوان مثال، ترافیک در یک تقاطع به شرایط ترافیکی در سایر اتصالات نزدیک بستگی دارد. در حالی که RL چندعاملی میتواند با این مسئله تداخل مقابله کند، با افزایش تقاطعها، از ابعاد رو به رشد نمایی رنج میبرد.
اخیراً تیمی از محققان دانشگاه Chung Ang در کره به سرپرستی پروفسور Keemin Sohn مدل متا-RL را برای حل این مشکل پیشنهاد کردند. به طور خاص، این تیم یک مدل متا-RL مبتنی بر زمینه (EDQN) برای کنترل سیگنال ترافیک توسعه داده است.
پروفسور سون در مورد مطالعه آنها که در Computer-Aided Civil and Infrastructure Engineering منتشر شده است، توضیح می دهد.
مطالعات موجود الگوریتمهای متا-RL را بر اساس هندسه تقاطع، فازهای سیگنال ترافیکی یا شرایط ترافیک ابداع کردهاند. تحقیق حاضر به جنبه غیر ثابت کنترل سیگنال با توجه به سطوح تراکم میپردازد. متا-RL به طور مستقل در تشخیص ترافیک کار میکند.
مدل به صورت زیر عمل می کند. با استفاده از یک متغیر پنهان که وضعیت کلی محیط را نشان می دهد، وضعیت ترافیک را – اشباع یا غیر اشباع – تعیین می کند. بر اساس جریان ترافیک، مدل یا توان عملیاتی را به حداکثر میرساند یا تاخیرهای مشابه کنترلکننده انسانی را به حداقل میرساند. این کار را با اجرای فازهای سیگنال ترافیکی (عمل) انجام می دهد.
مانند عوامل یادگیری هوشمند، عمل با ارائه یک “پاداش” کنترل می شود. در اینجا، تابع پاداش به ترتیب 1+ یا -1 است که به ترتیب مربوط به عملکرد بهتر یا بدتر در مدیریت ترافیک نسبت به بازه قبلی است. علاوه بر این، EDQN به عنوان یک رمزگشا برای کنترل مشترک سیگنال های ترافیکی برای تقاطع های متعدد عمل می کند.
به دنبال توسعه نظری آن، محققان الگوریتم متا-RL خود را با استفاده از Vissim v21.0، شبیهساز ترافیک تجاری، آموزش و آزمایش کردند تا شرایط ترافیکی دنیای واقعی را تقلید کنند. علاوه بر این، یک شبکه حمل و نقل در جنوب غربی سئول متشکل از 15 تقاطع به عنوان یک بستر آزمایشی در دنیای واقعی انتخاب شد. پس از فراآموزش، این مدل میتواند بدون تنظیم پارامترهای خود، با وظایف جدید در طول فراآزمایش سازگار شود.
آزمایشهای شبیهسازی نشان داد که مدل پیشنهادی میتواند وظایف کنترلی (از طریق انتقال) را بدون هیچ گونه اطلاعات صریح ترافیک تغییر دهد. همچنین می تواند بین پاداش ها بر اساس سطح اشباع شرایط ترافیک تفاوت قائل شود. علاوه بر این، مدل متا-RL مبتنی بر EDQN از الگوریتمهای موجود برای کنترل علائم ترافیکی بهتر عمل کرد و میتوان آن را به وظایفی با انتقالها و پاداشهای مختلف گسترش داد.
با این وجود، محققان به نیاز به الگوریتم دقیقتری برای در نظر گرفتن سطوح مختلف اشباع از تقاطع به تقاطع اشاره کردند. “تحقیقات موجود از یادگیری تقویتی برای کنترل علائم ترافیکی با یک هدف ثابت استفاده کرده است. در مقابل، این کار کنترل کننده ای ابداع کرده است که می تواند به طور مستقل هدف بهینه را بر اساس آخرین وضعیت ترافیک انتخاب کند. این چارچوب، در صورتی که توسط آژانس های کنترل علائم ترافیکی اتخاذ شود. پروفسور سون نتیجه می گیرد که می تواند مزایای سفر را به همراه داشته باشد که قبلاً هرگز تجربه نشده بود.