نوآوری در مدیریت برای توسعه پایدار

Kolnegar Private Media (Management Innovation for Sustainable Development)

9 فروردین 1403 5:03 ب.ظ

یادگیری ماشینی وتوانایی ربات ها در درک تعاملات انسانی

29 نوامبر 2021 -توسط آدام زوی، موسسه فناوری ماساچوست

محققان MIT یک مدل یادگیری ماشینی ایجاد کرده اند که روابط زیربنایی بین اشیاء در یک صحنه را درک می کند و می تواند تصاویر دقیقی از صحنه ها از توضیحات متن ایجاد کند. اعتبار: خوزه لوئیس اولیوارس، MIT، و iStockphoto

وقتی انسان به صحنه ای نگاه می کند، اشیا و روابط بین آنها را می بیند. در بالای میز شما، ممکن است لپ‌تاپی وجود داشته باشد که در سمت چپ تلفن قرار داشته باشد که در مقابل مانیتور کامپیوتر قرار دارد.

بسیاری از مدل‌های یادگیری عمیق تلاش می‌کنند تا دنیا را به این شکل ببینند، زیرا آنها روابط درهم‌تنیده بین اشیاء فردی را درک نمی‌کنند. بدون آگاهی از این روابط، رباتی که برای کمک به کسی در آشپزخانه طراحی شده است، در پیروی از دستوری مانند “کاردک را که در سمت چپ اجاق گاز قرار دارد بردارید و آن را در بالای تخته برش قرار دهید” مشکل خواهد داشت.در تلاش برای حل این مشکل، محققان MIT مدلی را توسعه داده اند که روابط زیربنایی بین اشیاء در یک صحنه را درک می کند. مدل آنها روابط فردی را یکی یکی نشان می دهد، سپس این بازنمایی ها را برای توصیف صحنه کلی ترکیب می کند. این مدل را قادر می‌سازد تا تصاویر دقیق‌تری را از توضیحات متن تولید کند، حتی زمانی که صحنه شامل چندین شی است که در روابط مختلف با یکدیگر چیده شده‌اند.

این کار را می‌توان در موقعیت‌هایی به کار برد که روبات‌های صنعتی باید وظایف پیچیده و چند مرحله‌ای دستی، مانند چیدن اقلام در انبار یا مونتاژ وسایل را انجام دهند. همچنین میدان را یک قدم به ماشین‌هایی نزدیک‌تر می‌کند که می‌توانند مانند انسان‌ها از محیط خود بیاموزند و با آن تعامل داشته باشند.

یک رابطه در یک زمان

چارچوبی که محققان توسعه داده‌اند می‌تواند تصویری از یک صحنه بر اساس توصیف متنی اشیا و روابط آنها ایجاد کند، مانند “یک میز چوبی در سمت چپ یک چهارپایه آبی. یک کاناپه قرمز در سمت راست یک چهارپایه آبی.”

چارچوبی که محققان ایجاد کرده اند می تواند تصویری از یک صحنه را بر اساس توصیف متنی اشیا و روابط آنها ایجاد کند، در این شکل، تصویر نهایی محقق در سمت راست قرار دارد و به درستی از توضیحات متن پیروی می کند.

سیستم آنها این جملات را به دو بخش کوچکتر تقسیم می کند که هر رابطه فردی را توصیف می کند (“یک میز چوبی در سمت چپ یک چهارپایه آبی” و “یک مبل قرمز در سمت راست یک چهارپایه آبی”) و سپس هر قسمت را به طور جداگانه مدل می کند. . سپس این قطعات از طریق یک فرآیند بهینه سازی ترکیب می شوند که تصویری از صحنه ایجاد می کند.

محققان از یک تکنیک یادگیری ماشینی به نام مدل‌های مبتنی بر انرژی برای نشان دادن روابط جسمی فردی در توصیف صحنه استفاده کردند. این تکنیک آن‌ها را قادر می‌سازد تا از یک مدل مبتنی بر انرژی برای رمزگذاری هر توصیف رابطه‌ای استفاده کنند و سپس آن‌ها را به گونه‌ای با هم ترکیب کنند که همه اشیا و روابط را استنتاج کنند.

یکی از صاحبان مقاله بنام لی توضیح می‌دهد که با تقسیم جملات به قطعات کوتاه‌تر برای هر رابطه، سیستم می‌تواند آنها را به روش‌های مختلف دوباره ترکیب کند، بنابراین بهتر می‌تواند با توصیف صحنه‌هایی که قبلاً ندیده است، سازگار شود.

“سیستم های دیگر همه روابط را به طور کلی در نظر می گیرند و تصویر را یک شات از توضیحات ایجاد می کنند. با این حال، چنین رویکردهایی زمانی که ما توصیف های خارج از توزیع داشته باشیم، مانند توصیف هایی با روابط بیشتر، شکست می خورند، زیرا این مدل ها واقعا نمی توانند منطبق شوند. یک شات برای تولید تصاویر حاوی روابط بیشتر. با این حال، همانطور که ما این مدل‌های مجزا و کوچک‌تر را با هم می‌سازیم، می‌توانیم تعداد بیشتری از روابط را مدل‌سازی کنیم و با ترکیب‌های جدید تطبیق دهیم.”

این سیستم همچنین به صورت معکوس کار می کند – با توجه به یک تصویر، می تواند توضیحات متنی را پیدا کند که با روابط بین اشیاء در صحنه مطابقت دارد. علاوه بر این، مدل آنها می تواند باشد https://techxplore.com

آیا این نوشته برایتان مفید بود؟

مطالب مرتبط

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *