“فروپاشی مدل” چیست؟

19 آگوست 2024 – توسط آرون جی اسنوسول، گفتگو-اعتبار: دامنه عمومی Pixabay/CC0

پیام رسانان و خبرسازان هوش مصنوعی (AI) با صحبت از یک فاجعه آمیز قریب الوقوع “فروپاشی مدل” پایان تبلیغات مولد هوش مصنوعی را پیش بینی می کنند.

اما این پیش بینی ها چقدر واقعی هستند؟ و به هر حال فروپاشی مدل چیست؟

«فروپاشی مدل» که در سال 2023 مورد بحث قرار گرفت، اما اخیراً رایج شده است، به یک سناریوی فرضی اشاره دارد که در آن سیستم‌های هوش مصنوعی آینده به دلیل افزایش داده‌های تولید شده توسط هوش مصنوعی در اینترنت به تدریج احمقانه می‌شوند.

سیستم های هوش مصنوعی مدرن با استفاده از یادگیری ماشین ساخته می شوند. برنامه نویسان ساختار ریاضی زیربنایی را تنظیم می کنند، اما “هوش” واقعی از آموزش سیستم برای تقلید الگوها در داده ها ناشی می شود.

اما نه هر داده ای. محصول فعلی سیستم‌های هوش مصنوعی مولد به داده‌های با کیفیت بالا و تعداد زیادی از آن نیاز دارد.

برای منبع این داده ها، شرکت های فناوری بزرگ مانند OpenAI، گوگل، متا و انویدیا به طور مداوم اینترنت را جست و جو می کنند و ترابایت محتوا برای تغذیه ماشین ها جمع آوری می کنند. اما از زمان ظهور سیستم‌های هوش مصنوعی در دسترس و مفید در سال 2022، مردم به طور فزاینده‌ای محتوایی را بارگذاری و به اشتراک می‌گذارند که بخشی یا کل آن توسط هوش مصنوعی ساخته شده است.

در سال 2023، محققان به این فکر افتادند که آیا می‌توانند به جای داده‌های تولید شده توسط انسان، تنها به داده‌های ایجاد شده توسط هوش مصنوعی برای آموزش تکیه کنند.

انگیزه های زیادی برای ساخت این کار وجود دارد. علاوه بر تکثیر در اینترنت، محتوای تولید شده با هوش مصنوعی بسیار ارزان‌تر از منبع داده‌های انسانی است. همچنین جمع آوری انبوه از نظر اخلاقی و قانونی مشکوک نیست.

با این حال، محققان دریافتند که بدون داده‌های انسانی با کیفیت بالا، سیستم‌های هوش مصنوعی که بر روی داده‌های ساخته‌شده با هوش مصنوعی آموزش دیده‌اند، با یادگیری هر مدل از مدل قبلی، گنگ‌تر و احمق‌تر می‌شوند. این مانند نسخه دیجیتالی مشکل همخونی است.

به نظر می رسد این “آموزش ناپسند” منجر به کاهش کیفیت و تنوع رفتار مدل شود. کیفیت در اینجا تقریباً به معنای ترکیبی از مفید، بی ضرر و صادق بودن است. تنوع به تنوع در پاسخ ها اشاره دارد و دیدگاه های فرهنگی و اجتماعی افراد در خروجی های هوش مصنوعی نشان داده می شود.

به طور خلاصه: با استفاده زیاد از سیستم‌های هوش مصنوعی، می‌توانیم همان منبع داده‌ای را که برای مفید کردن آن‌ها در وهله اول نیاز داریم، آلوده کنیم.

آیا فناوری های بزرگ نمی توانند محتوای تولید شده توسط هوش مصنوعی را فیلتر کنند؟ .شرکت‌های فناوری در حال حاضر زمان و هزینه زیادی را صرف تمیز کردن و فیلتر کردن داده‌هایی که مشکل دارند می‌کنند، به‌طوری‌که یکی از کارشناسان داخلی اخیراً به اشتراک‌گذاری می‌کند که گاهی تا ۹۰ درصد از داده‌هایی را که در ابتدا برای مدل‌های آموزشی جمع‌آوری می‌کنند دور می‌اندازند.

با افزایش نیاز به حذف محتوای تولید شده توسط هوش مصنوعی، این تلاش‌ها ممکن است سخت‌تر شوند. اما مهمتر از آن، در دراز مدت، تشخیص محتوای هوش مصنوعی در واقع سخت تر و دشوارتر می شود. این باعث می‌شود که فیلتر کردن و حذف داده‌های مصنوعی به بازی کاهش بازده (مالی) تبدیل شود.در نهایت، تحقیقات تا کنون نشان می دهد که ما نمی توانیم به طور کامل داده های انسانی را از بین ببریم. به هر حال، این جایی است که “من” در هوش مصنوعی از آنجا می آید.

آیا ما به سمت یک فاجعه پیش می رویم؟

نکاتی وجود دارد که توسعه‌دهندگان باید سخت‌تر کار کنند تا داده‌های با کیفیت بالا تهیه کنند. به عنوان مثال، اسناد همراه با انتشار GPT-4 تعداد بی سابقه ای از کارکنان درگیر در بخش های مربوط به داده های پروژه را نشان می دهد.همچنین ممکن است داده‌های انسانی جدید ما تمام شود. برخی تخمین ها می گویند که مجموعه داده های متنی تولید شده توسط انسان ممکن است تا سال 2026 از بین برود.

احتمالاً چرا OpenAI و دیگران برای تقویت شراکت انحصاری با غول‌های صنعت مانند Shutterstock، Associated Press و NewsCorp رقابت می‌کنند. آنها دارای مجموعه های اختصاصی بزرگی از داده های انسانی هستند که به راحتی در اینترنت عمومی در دسترس نیستند.

با این حال، دورنمای فروپاشی مدل فاجعه بار ممکن است اغراق آمیز باشد. بیشتر تحقیقات تاکنون به مواردی می پردازد که داده های مصنوعی جایگزین داده های انسانی می شوند. در عمل، داده های انسان و هوش مصنوعی احتمالاً به صورت موازی جمع می شوند، که احتمال فروپاشی را کاهش می دهد.

محتمل‌ترین سناریوی آینده همچنین شاهد استفاده از اکوسیستمی از پلتفرم‌های هوش مصنوعی مولد تا حدودی متنوع برای ایجاد و انتشار محتوا خواهد بود، نه یک مدل یکپارچه. این همچنین استحکام در برابر فروپاشی را افزایش می دهد.این دلیل خوبی برای تنظیم‌کننده‌ها برای ترویج رقابت سالم با محدود کردن انحصارات در بخش هوش مصنوعی و تامین مالی توسعه فناوری منافع عمومی است.

همچنین خطرات ظریف تری از محتوای بیش از حد ساخته شده توسط هوش مصنوعی وجود دارد.

سیل محتوای مصنوعی ممکن است تهدیدی وجودی برای پیشرفت توسعه هوش مصنوعی نباشد، اما منافع عمومی دیجیتال اینترنت (انسانی) را تهدید می‌کند.

به عنوان مثال، یک سال پس از انتشار ChatGPT، محققان متوجه کاهش 16 درصدی فعالیت در وب سایت برنامه نویسی StackOverflow شدند. این نشان می دهد که کمک هوش مصنوعی ممکن است تعاملات فرد به فرد را در برخی از جوامع آنلاین کاهش دهد.

تولید بیش از حد از شرکت مبتنی بر هوش مصنوعی ومزارع ntent همچنین یافتن محتوایی که طعمه کلیکی پر از تبلیغات نباشد را دشوارتر می کند.

تشخیص قابل اعتماد بین محتوای تولید شده توسط انسان و تولید شده توسط هوش مصنوعی غیرممکن شده است. یکی از روش‌های رفع این مشکل، نشان‌گذاری یا برچسب‌گذاری محتوای تولید شده توسط هوش مصنوعی است، همانطور که من و بسیاری دیگر اخیراً تاکید کرده‌ایم و در قوانین موقت اخیر دولت استرالیا منعکس شده است.

خطر دیگری نیز وجود دارد. از آنجایی که محتوای تولید شده توسط هوش مصنوعی به طور سیستماتیک همگن می شود، ما در خطر از دست دادن تنوع فرهنگی-اجتماعی هستیم و برخی از گروه های مردم حتی ممکن است پاک شدن فرهنگی را تجربه کنند. ما به تحقیقات بین رشته ای در مورد چالش های اجتماعی و فرهنگی ناشی از سیستم های هوش مصنوعی نیاز فوری داریم.

تعاملات انسانی و داده های انسانی مهم هستند و ما باید از آنها محافظت کنیم. به خاطر خودمان و شاید هم به خاطر خطر احتمالی سقوط مدل آینده.

https://techxplore.com