هنر هوش مصنوعی همه جا وجود دارد وکارشناسان هم نمی دانند که چه معنایی خواهد داشت

13 سپتامبر 2022 – نوشته رودولفو اوکامپو، گفتگو

«Théâtre D’Opera Spatial» اعتبار: جیسون آلن / Midjourney

یک جایزه هنری در نمایشگاه ایالتی کلرادو، ماه گذشته به اثری اعطا شد که – برای داوران ناشناس – توسط یک سیستم هوش مصنوعی (AI) تولید شده بود.

رسانه های اجتماعی همچنین شاهد انفجاری از تصاویر عجیب و غریب تولید شده توسط هوش مصنوعی از توضیحات متنی هستند، مانند “چهره یک شیبا که در کنار یک قرص نان روی نیمکت آشپزخانه، هنر دیجیتال ترکیب شده است.”

شاید از خود بپرسید اینجا چه خبر است. به عنوان کسی که در مورد همکاری‌های خلاقانه بین انسان‌ها و هوش مصنوعی تحقیق می‌کند، می‌توانم به شما بگویم که درجلوی ما یک انقلاب اساسی در جریان است – با پیامدهای اجتماعی، هنری، اقتصادی و تکنولوژیکی عمیق.

می توان گفت این انقلاب در ژوئن 2020 آغاز شد، زمانی که شرکتی به نام OpenAI با ایجاد GPT-3 به پیشرفت بزرگی در هوش مصنوعی دست یافت، سیستمی که می تواند زبان را به روش های بسیار پیچیده تر از تلاش های قبلی پردازش و تولید کند. می‌توانید درباره هر موضوعی با آن صحبت کنید، از او بخواهید یک مقاله یا داستانی تحقیقی بنویسد، متنی را خلاصه کند، یک جوک بنویسد و تقریباً هر کار زبانی قابل تصوری را انجام دهد.

در سال 2021، برخی از توسعه دهندگان GPT-3 دست خود را روی تصاویر گذاشتند. آنها مدلی را بر روی میلیاردها جفت تصویر و توضیحات متنی آموزش دادند، سپس از آن برای تولید تصاویر جدید از توضیحات جدید استفاده کردند. آنها این سیستم را DALL-E نامیدند و در جولای 2022 نسخه جدید بسیار بهبود یافته DALL-E 2 را منتشر کردند.

مانند GPT-3، DALL-E 2 یک پیشرفت بزرگ بود. این می تواند تصاویر بسیار دقیق را از ورودی های متن آزاد، از جمله اطلاعات در مورد سبک و سایر مفاهیم انتزاعی ایجاد کند.به عنوان مثال، از آن خواستم که عبارت “ذهن در شکوفه” را با ترکیب سبک های سالوادور دالی، هنری ماتیس و برت وایتلی نشان دهد.

از زمان عرضه DALL-E 2، چند رقیب ظاهر شده اند. یکی DALL-E Mini با استفاده رایگان اما با کیفیت پایین به طور مستقل توسعه یافته و اکنون به Craiyon تغییر نام داده است.

تقریباً در همان زمان، یک شرکت کوچکتر به نام Midjourney مدلی را عرضه کرد که بیشتر با قابلیت های DALL-E 2 مطابقت داشت. اگرچه هنوز هم کمی کمتر از DALL-E 2 توانایی دارد، اما Midjourney خود را به کاوش های هنری جالب وامی داده است. با Midjourney بود که جیسون آلن اثر هنری را تولید کرد که برنده مسابقه هنر نمایشگاه ایالت کلرادو شد.

گوگل نیز یک مدل تبدیل متن به تصویر به نام Imagen دارد که ظاهراً نتایج بسیار بهتری نسبت به DALL-E و دیگران دارد. با این حال، Imagen هنوز برای استفاده گسترده‌تر منتشر نشده است، بنابراین ارزیابی ادعاهای گوگل دشوار است.

در ژوئیه 2022، OpenAI شروع به سرمایه گذاری بر روی علاقه به DALL-E کرد و اعلام کرد که به 1 میلیون کاربر بر اساس پرداخت به استفاده دسترسی خواهند داشت.با این حال، در آگوست 2022 یک رقیب جدید وارد شد.

Stable Diffusion نه تنها در قابلیت‌های DALL-E 2 رقیب است، بلکه مهم‌تر از آن منبع باز است. هر کسی می تواند کد را به دلخواه خود استفاده، تطبیق و تغییر دهد.

در حال حاضر، در هفته های پس از انتشار Stable Diffusion، مردم این کد را تا حد توان انجام داده اند.برای مثال: مردم به سرعت متوجه شدند که چون یک ویدیو دنباله ای از تصاویر است، می توانند کد Stable Diffusion را برای تولید ویدئو از متن تغییر دهند.

@StableDiffusion Img2Img x #ebsynth x @koe_recast TEST#stablediffusion #AIart pic.twitter.com/aZgZZBRjWM

— اسکات لایتایزر (@LighthiserScott) 7 سپتامبر 2022

یکی دیگر از ابزارهای جذاب ساخته شده با کد Stable Diffusion Diffuse the Rest است که به شما امکان می دهد یک طرح ساده ترسیم کنید، یک پیام متنی ارائه دهید و یک تصویر از آن ایجاد کنید.

این که می توانید هر نوع محتوای بصری، تصویر یا ویدیویی را با چند خط متن و یک کلیک یک دکمه تولید کنید، به چه معناست؟ وقتی می توانید یک فیلمنامه با GPT-3 و یک انیمیشن سینمایی با DALL-E 2 تولید کنید چطور؟

و با نگاهی بیشتر به آینده، وقتی الگوریتم های رسانه های اجتماعی نه تنها محتوای فید شما را مدیریت می کنند، بلکه آن را تولید می کنند چه معنایی خواهد داشت؟ در مورد زمانی که این روند در چند سال آینده با فراجهان روبرو می شود و جهان های واقعیت مجازی در زمان واقعی، فقط برای شما ایجاد می شوند، چطور؟

همه اینها سوالات مهمی هستند که باید در نظر گرفته شوند.

برخی بر این باورند که در کوتاه مدت، این بدان معناست که خلاقیت و هنر انسان به شدت در معرض تهدید قرار گرفته است.

تصاویر تولید شده توسط مدل Imagen text-to-image همراه با متنی که آنها را تولید کرده است. Google / Imagen

شاید در دنیایی که هر کسی می‌تواند هر تصویری را تولید کند، طراحان گرافیک آنطور که ما امروز می‌شناسیم بی‌کار باشند. با این حال، تاریخ نشان می دهد که خلاقیت انسان راهی پیدا می کند. سینت سایزر الکترونیکی موسیقی را نمی کشد و عکاسی نقاشی را نمی کشد. در عوض، آنها اشکال هنری جدیدی را تسریع کردند.

من معتقدم چیزی مشابه با نسل هوش مصنوعی اتفاق خواهد افتاد. مردم در حال آزمایش مدل هایی مانند Stable Diffusion به عنوان بخشی از فرآیند خلاقانه خود هستند.

نوع جدیدی از هنرمند حتی در آن چیزی که برخی آن را “پیش شناسی” یا “مهندسی سریع” می نامند، در حال ظهور است. هنر در ساختن پیکسل ها با دست نیست، بلکه در ساختن کلماتی است که کامپیوتر را وادار به تولید تصویر می کند: نوعی زمزمه هوش مصنوعی.

همکاری با هوش مصنوعی

تأثیرات فناوری‌های هوش مصنوعی چند بعدی خواهد بود: نمی‌توانیم آنها را در یک محور به خوب یا بد کاهش دهیم.هنرهای جدید و همچنین راه های جدیدی برای بیان خلاق پدید خواهند آمد. با این حال، من معتقدم که خطراتی نیز وجود دارد.

ما در اقتصاد توجه زندگی می کنیم که با استخراج زمان صفحه نمایش از کاربران رشد می کند. در اقتصادی که اتوماسیون منجر به سود شرکت می شود اما لزوماً دستمزدهای بالاتری ندارد و هنر به عنوان محتوا کالایی می شود. در یک زمینه اجتماعی که تشخیص واقعی از جعلی به طور فزاینده ای دشوار است. در ساختارهای اجتماعی فنی که به راحتی تعصبات را در مدل‌های هوش مصنوعی که آموزش می‌دهیم رمزگذاری می‌کنند. در این شرایط، هوش مصنوعی به راحتی می تواند آسیب برساند.

چگونه می‌توانیم این فناوری‌های جدید هوش مصنوعی را به سمتی هدایت کنیم که به نفع مردم باشد؟ من معتقدم یکی از راه‌های انجام این کار، طراحی هوش مصنوعی است که با انسان‌ها همکاری کند، نه جایگزین آن.

https://techxplore.com/