
20 مه 2024 – توسط کارن دیویدسون، دانشگاه تگزاس در آستین
اعتبار: جانیس دارا، https://github.com/giannisdaras/ambient-tweedie
مدلهای جدید هوش مصنوعی قدرتمند، گاهی اوقات، کاملاً معروف، اشتباه میکنند – چه توهم زدن اطلاعات نادرست یا حفظ کردن کار دیگران و ارائه آن به عنوان کار خودشان. برای رسیدگی به مورد دوم، محققان به رهبری تیمی در دانشگاه تگزاس در آستین چارچوبی را برای آموزش مدلهای هوش مصنوعی بر روی تصاویری که غیرقابل تشخیص خراب شدهاند، ایجاد کردهاند.
DALL-E، Midjourney و Stable Diffusion از جمله مدلهای هوش مصنوعی تولیدکننده انتشار متن به تصویر هستند که میتوانند متن دلخواه کاربر را به تصاویر بسیار واقعی تبدیل کنند. هر سه اکنون با شکایت هنرمندانی روبرو هستند که ادعا می کنند نمونه های تولید شده کار آنها را تکرار می کنند. این مدلها که بر روی میلیاردها جفت تصویر-متن آموزش دیدهاند که در دسترس عموم نیستند، میتوانند تصاویری با کیفیت بالا از پیامهای متنی ایجاد کنند، اما ممکن است از تصاویر دارای حق چاپ استفاده کنند که سپس تکرار میکنند.
چارچوب پیشنهادی جدید، به نام انتشار محیط، با آموزش مدلهای انتشار از طریق دسترسی فقط به دادههای مبتنی بر تصویر خراب، این مشکل را حل میکند. تلاشهای اولیه نشان میدهد که این چارچوب میتواند به تولید نمونههای باکیفیت ادامه دهد، بدون اینکه چیزی را ببیند که به عنوان تصاویر منبع اصلی قابل تشخیص باشد.
Ambient Diffusion ابتدا در NeurIPS، یک کنفرانس یادگیری ماشینی، در سال 2023 ارائه شد و از آن زمان اقتباس و توسعه یافته است. مقاله بعدی، “Consistent Diffusion Meets Tweedie” که در سرور preprint arXiv موجود است، در کنفرانس بین المللی یادگیری ماشین در سال 2024 پذیرفته شد. این تیم با همکاری کنستانتینوس دااسکالاکیس از موسسه فناوری ماساچوست، چارچوب را برای آموزش مدلهای انتشار بر روی مجموعه دادههای تصاویر خراب شده توسط انواع دیگر نویز، به جای پوشاندن پیکسلها و روی مجموعههای داده بزرگتر، گسترش دادند.
آدام کلیوانز، استاد علوم کامپیوتر که در این کار مشارکت داشت، گفت: «این چارچوب میتواند برای کاربردهای علمی و پزشکی نیز مفید باشد. این امر اساساً برای هر تحقیقی که در آن گران یا غیرممکن است داشتن یک مجموعه کامل از دادههای خراب، از تصویربرداری سیاهچاله گرفته تا انواع خاصی از اسکنهای MRI، صادق است.
کلیوانز; الکس دیماکیس، استاد مهندسی برق و کامپیوتر؛ و سایر همکاران در مؤسسه چند مؤسسهای برای مبانی یادگیری ماشین که توسط دو عضو هیأت علمی دانشگاه UT اداره میشد، ابتدا یک مدل انتشار را بر روی مجموعهای از 3000 تصویر از افراد مشهور آموزش دادند، سپس از آن مدل برای تولید نمونههای جدید استفاده کردند.
در آزمایش، مدل انتشار آموزش داده شده بر روی دادههای تمیز، نمونههای آموزشی را آشکارا کپی کرد. اما زمانی که محققان داده های آموزشی را خراب کردند و به طور تصادفی تا 90 درصد از پیکسل های یک تصویر را پنهان کردند و مدل را با رویکرد جدید خود آموزش دادند، نمونه های تولید شده با کیفیت بالا باقی ماندند اما بسیار متفاوت به نظر می رسیدند. این مدل همچنان میتواند چهرههای انسان را تولید کند، اما چهرههای تولید شده به اندازه کافی با تصاویر آموزشی متفاوت هستند.
جیانیس داراس، دانشجوی فارغ التحصیل علوم کامپیوتر که این کار را رهبری می کرد، گفت: «چارچوب ما امکان کنترل مبادله بین حفظ و عملکرد را فراهم می کند. با افزایش میزان فساد در طول آموزش، حفظ مجموعه آموزشی کاهش می یابد.»
محققان گفتند این به راه حلی اشاره دارد که اگرچه ممکن است عملکرد را تغییر دهد، اما هرگز نویز تولید نمی کند. این چارچوب نمونهای از چگونگی پیشرفت محققان دانشگاهی هوش مصنوعی برای برآوردن نیازهای جامعه را ارائه میدهد، موضوعی کلیدی در سال جاری در دانشگاه تگزاس در آستین، که سال 2024 را «سال هوش مصنوعی» اعلام کرده است.
تیم تحقیقاتی شامل اعضایی از دانشگاه کالیفرنیا، برکلی و MIT بود.