مدلی برای تولید تصاویر هنری بر اساس توضیحات متنی

16 ژوئن 2022 -توسط Ingrid Fadelli، Tech Xplore=اعتبار: تیان و فرانچیتی.

ابزارهای هوش مصنوعی (AI) برای تکمیل طیف وسیعی از وظایف بسیار ارزشمند هستند. در حالی که آنها در درجه اول برای افزایش بهره وری یا ساده کردن فرآیندهای روزمره استفاده می شوند، آنها همچنین نویدبخش تولید خودکار متون خلاقانه و تصاویر هنری هستند.

محققان دانشگاه واترلو و موسسه کورانت دانشگاه نیویورک اخیرا ابزار هوش مصنوعی ایجاد کرده اند که می تواند به طور خودکار تصاویر هنری منحصر به فردی را بر اساس توضیحات متنی ایجاد کند. روش آنها که در مقاله ای از پیش منتشر شده در arXiv معرفی شده است، مبتنی بر یک شبکه مولد حافظه پویا DM-GAN است، مدلی مبتنی بر دو شبکه عصبی مصنوعی که با یکدیگر برای تولید تصاویر متقاعدکننده فزاینده ای کار می کنند.

Qinghe Tian ژان کلود فرانچیتی در مقاله خود نوشتند.:ما یک راه حل انتها به انتها ایجاد می کنیم که می تواند تصاویر هنری را از توضیحات متن ایجاد کند.”

ایده اصلی پشت کار اخیر تیان و فرانچیتی، ایجاد مدلی بود که بتواند از توضیحات متنی ارائه شده توسط کاربران برای تولید تصاویر هنری مطابق با این توصیفات استفاده کند. این امر به افراد دارای معلولیت که مانع از نقاشی مؤثر آنها می شود و سایر افرادی که در طراحی مهارت چندانی ندارند، اجازه می دهد تا تصاویر هنری زیبایی را تولید کنند که چیزهای خاصی را به تصویر می کشد.

با این حال، اکثر مجموعه داده‌های موجود برای آموزش مدل‌های مولد، یا حاوی تصاویر یا متون برچسب‌دار هستند، نه تصاویر جفت شده با توضیحات متنی آن‌ها. بنابراین، محققان مجبور شدند راه جایگزینی برای آموزش مدل خود ارائه دهند.

محققان در مقاله خود توضیح دادند: «به دلیل کمبود مجموعه داده‌ها با توضیحات متن و تصاویر هنری، آموزش مستقیم الگوریتمی که بتواند بر اساس ورودی متن هنر ایجاد کند، دشوار است. برای رسیدگی به این موضوع، وظایف خود را به سه مرحله تقسیم کردیم.»

اولاً، محققان از مدل DM-GAN خود برای ایجاد یک تصویر واقع گرایانه که بیانگر یک توصیف متنی است، استفاده کردند. متعاقباً، آنها از ResNet، یک شبکه عصبی مصنوعی با چندین لایه، برای طبقه‌بندی تصویر تولید شده توسط DM-GAN در یکی از دسته‌های ژانر مشخص شده توسط مجموعه داده WikiArt استفاده کردند.

مجموعه داده WikiArt که اغلب برای آموزش روش‌های یادگیری عمیق استفاده می‌شود، شامل بیش از 40000 نقاشی هنری است که توسط 195 هنرمند تولید شده‌اند. پس از طبقه‌بندی تصویر تولید شده توسط DM-GAN به یکی از دسته‌های ژانر مشخص شده توسط ویکی آرت، مدل می‌تواند با استفاده از یک شبکه سبک‌سازی هنری عصبی، سبک نقاشی سازگار با این دسته ژانر را انتخاب کرده و به تصویر تولید شده منتقل کند.

محققان روش چند وجهی خود را در یک سری آزمایش های آزمایشی اولیه ارزیابی کردند. در حالی که نتایج بسیار خوبی به دست آورد، آنها مایلند عملکرد آن را در کارهای بعدی خود بیشتر بهبود بخشند.

محققان در مقاله خود نوشتند: “به طور کلی، ما نتایج قابل قبولی را برای ترکیب های متعدد از ورودی های متن و سبک های مورد نظر به دست می آوریم.” “با این حال، هنوز بخش‌های زیادی از راه‌حل ما وجود دارد که می‌توان آنها را بهبود بخشید. به ویژه، ما قصد داریم یک ماژول تشخیص گفتار اضافه کنیم تا افراد دارای معلولیت دست بتوانند ورودی‌های خود را از طریق صدا به جای تایپ کردن مشخص کنند.”

در آینده، تکنیک توسعه یافته توسط Tian و Franchitti می تواند به طور بالقوه در برنامه های گرافیکی و طراحی ادغام شود و به همه افراد اجازه می دهد بدون توجه به توانایی ها و استعدادهای هنری خود، تصاویر هنری با کیفیت بالا تولید کنند. کد مدل ابداع شده توسط محققان به صورت عمومی در GitHub در دسترس است. در مطالعات بعدی خود، تیم همچنین قصد دارد عملکرد خود را با روش های دیگر برای تولید تصویر مقایسه کند و عملکرد اجزای جداگانه آن را بهبود بخشد.

https://techxplore.com