
29 نوامبر 2021 -توسط آدام زوی، موسسه فناوری ماساچوست
محققان MIT یک مدل یادگیری ماشینی ایجاد کرده اند که روابط زیربنایی بین اشیاء در یک صحنه را درک می کند و می تواند تصاویر دقیقی از صحنه ها از توضیحات متن ایجاد کند. اعتبار: خوزه لوئیس اولیوارس، MIT، و iStockphoto
وقتی انسان به صحنه ای نگاه می کند، اشیا و روابط بین آنها را می بیند. در بالای میز شما، ممکن است لپتاپی وجود داشته باشد که در سمت چپ تلفن قرار داشته باشد که در مقابل مانیتور کامپیوتر قرار دارد.
بسیاری از مدلهای یادگیری عمیق تلاش میکنند تا دنیا را به این شکل ببینند، زیرا آنها روابط درهمتنیده بین اشیاء فردی را درک نمیکنند. بدون آگاهی از این روابط، رباتی که برای کمک به کسی در آشپزخانه طراحی شده است، در پیروی از دستوری مانند “کاردک را که در سمت چپ اجاق گاز قرار دارد بردارید و آن را در بالای تخته برش قرار دهید” مشکل خواهد داشت.در تلاش برای حل این مشکل، محققان MIT مدلی را توسعه داده اند که روابط زیربنایی بین اشیاء در یک صحنه را درک می کند. مدل آنها روابط فردی را یکی یکی نشان می دهد، سپس این بازنمایی ها را برای توصیف صحنه کلی ترکیب می کند. این مدل را قادر میسازد تا تصاویر دقیقتری را از توضیحات متن تولید کند، حتی زمانی که صحنه شامل چندین شی است که در روابط مختلف با یکدیگر چیده شدهاند.
این کار را میتوان در موقعیتهایی به کار برد که روباتهای صنعتی باید وظایف پیچیده و چند مرحلهای دستی، مانند چیدن اقلام در انبار یا مونتاژ وسایل را انجام دهند. همچنین میدان را یک قدم به ماشینهایی نزدیکتر میکند که میتوانند مانند انسانها از محیط خود بیاموزند و با آن تعامل داشته باشند.
یک رابطه در یک زمان
چارچوبی که محققان توسعه دادهاند میتواند تصویری از یک صحنه بر اساس توصیف متنی اشیا و روابط آنها ایجاد کند، مانند “یک میز چوبی در سمت چپ یک چهارپایه آبی. یک کاناپه قرمز در سمت راست یک چهارپایه آبی.”
چارچوبی که محققان ایجاد کرده اند می تواند تصویری از یک صحنه را بر اساس توصیف متنی اشیا و روابط آنها ایجاد کند، در این شکل، تصویر نهایی محقق در سمت راست قرار دارد و به درستی از توضیحات متن پیروی می کند.
سیستم آنها این جملات را به دو بخش کوچکتر تقسیم می کند که هر رابطه فردی را توصیف می کند (“یک میز چوبی در سمت چپ یک چهارپایه آبی” و “یک مبل قرمز در سمت راست یک چهارپایه آبی”) و سپس هر قسمت را به طور جداگانه مدل می کند. . سپس این قطعات از طریق یک فرآیند بهینه سازی ترکیب می شوند که تصویری از صحنه ایجاد می کند.
محققان از یک تکنیک یادگیری ماشینی به نام مدلهای مبتنی بر انرژی برای نشان دادن روابط جسمی فردی در توصیف صحنه استفاده کردند. این تکنیک آنها را قادر میسازد تا از یک مدل مبتنی بر انرژی برای رمزگذاری هر توصیف رابطهای استفاده کنند و سپس آنها را به گونهای با هم ترکیب کنند که همه اشیا و روابط را استنتاج کنند.
یکی از صاحبان مقاله بنام لی توضیح میدهد که با تقسیم جملات به قطعات کوتاهتر برای هر رابطه، سیستم میتواند آنها را به روشهای مختلف دوباره ترکیب کند، بنابراین بهتر میتواند با توصیف صحنههایی که قبلاً ندیده است، سازگار شود.
“سیستم های دیگر همه روابط را به طور کلی در نظر می گیرند و تصویر را یک شات از توضیحات ایجاد می کنند. با این حال، چنین رویکردهایی زمانی که ما توصیف های خارج از توزیع داشته باشیم، مانند توصیف هایی با روابط بیشتر، شکست می خورند، زیرا این مدل ها واقعا نمی توانند منطبق شوند. یک شات برای تولید تصاویر حاوی روابط بیشتر. با این حال، همانطور که ما این مدلهای مجزا و کوچکتر را با هم میسازیم، میتوانیم تعداد بیشتری از روابط را مدلسازی کنیم و با ترکیبهای جدید تطبیق دهیم.”
این سیستم همچنین به صورت معکوس کار می کند – با توجه به یک تصویر، می تواند توضیحات متنی را پیدا کند که با روابط بین اشیاء در صحنه مطابقت دارد. علاوه بر این، مدل آنها می تواند باشد https://techxplore.com