24 آگوست 2023 -توسط پرابها کانان، دانشگاه استنفورد-اعتبار: Unsplash/CC0 دامنه عمومی
هوش مصنوعی مولد ممکن است مملو از توهم، اطلاعات نادرست و سوگیری باشد، اما این باعث نشد که بیش از نیمی از پاسخ دهندگان در یک مطالعه جهانی اخیر نگویند که از این فناوری نوپا برای مناطق حساسی مانند برنامه ریزی مالی و توصیه های پزشکی استفاده خواهند کرد.
این نوع علاقه این سوال را ایجاد می کند: این مدل های زبانی بزرگ چقدر قابل اعتماد هستند؟
Sanmi Koyejo، استادیار علوم کامپیوتر در استنفورد، و Bo Li، استادیار علوم کامپیوتر در دانشگاه Illinois Urbana-Champaign، به همراه همکارانی از دانشگاه کالیفرنیا، برکلی، و تحقیقات مایکروسافت، تصمیم گرفتند این سوال را در تحقیقات اخیر آنها در مورد مدل های GPT. آنها مطالعه خود را در سرور preprint arXiv پست کرده اند.
میگوید: “به نظر میرسد همه فکر میکنند که LLM در مقایسه با مدلهای دیگر، کامل و توانا هستند. این بسیار خطرناک است، بهویژه اگر افراد این مدلها را در حوزههای حیاتی به کار ببرند. از این تحقیق متوجه شدیم که مدلها هنوز به اندازه کافی برای مشاغل حیاتی قابل اعتماد نیستند.
کویجو و لی با تمرکز ویژه بر GPT-3.5 و GPT-4، این مدل ها را در هشت دیدگاه مختلف اعتماد ارزیابی کردند – سمیت، تعصب کلیشه ای، استحکام خصمانه، استحکام خارج از توزیع، استحکام در تظاهرات خصمانه، حریم خصوصی، اخلاق ماشینی، و انصاف. – با بیان اینکه، در حالی که این مدلهای جدیدتر در مقایسه با مدلهای قبلی در معیارهای استاندارد سمیت کمتری دارند، هنوز هم میتوان آنها را به راحتی برای تولید خروجیهای سمی و مغرضانه، و به بیرون درز اطلاعات خصوصی از دادههای آموزشی و مکالمات کاربر گمراه کرد.
Koyejo میگوید: «فرد غیرمجاز درک نمیکند که اینها مدلهای یادگیری ماشینی با آسیبپذیری هستند. از آنجایی که موارد بسیاری وجود دارد که در آن مدل ها توانایی هایی را نشان می دهند که فراتر از انتظار است – مانند گفتگوهای طبیعی – افراد انتظارات بالایی از هوش دارند که منجر می شود مردم در تصمیم گیری های کاملا حساس به آنها اعتماد کنند. این امر هنوز وجود ندارد.”
مدلهای فعلی GPT سمیت را به روشهای معمایی کاهش میدهند. Koyejo میگوید: «برخی از محبوبترین مدلها منبع نزدیک و پشت سیلو ی اطلاعات هستند، بنابراین ما در واقع از تمام جزئیات مربوط به آموزش مدلها اطلاعی نداریم. این سطح از درک ناپذیری انگیزه بیشتری را برای تیم ایجاد کرد تا تحقیقات خود را آغاز کنند، زیرا آنها می خواستند ارزیابی کنند که کجا و چگونه همه چیز می تواند به یک سمت پیش برود.
لی میگوید: «در سطح بالایی، میتوانیم بهعنوان یک وضعیت قرمز در نظر بگیریم که مدلها را با رویکردهای متفاوتی که میتوانیم فکر و پیشنهاد کنیم، آزمایش میکنیم.»
پس از ارائه درخواستهای درست به مدلها، Koyejo و Li دریافتند که GPT-3.5 و GPT-4 در مقایسه با سایر مدلها به طور قابل توجهی خروجی سمی را کاهش میدهند، اما همچنان احتمال سمیت را در حدود 32 درصد حفظ میکنند. هنگامی که به مدلها اعلانهای متخاصم داده میشود – برای مثال، به طور صریح به مدل دستور داده میشود تا “زبان سمی را تولید کند” و سپس آن را برای انجام یک کار تحریک میکند، احتمال سمیت به 100% افزایش مییابد.
برخی از یافتههای آنها در مورد سوگیری نشان میدهد که توسعهدهندگان مدل GPT-3.5 و GPT-4 مشکلات مدلهای قبلی را شناسایی و اصلاح کردهاند و به حساسترین کلیشهها میپردازند.
“ما آموختیم که این مدل نسبت به برخی کلیشه های حساس تعصب ندارد. به عنوان مثال، GPT-4 با بیانیه “همجنسگرایان HIV دارند” مخالف است، که عالی است. با این حال، هنوز هم نسبت به کلیشه های دیگر تعصب دارد. به عنوان مثال، GPT لی میگوید- اغلب با جمله «زنان مبتلا به HIV هستند» موافق است.
Koyejo و Li همچنین مسائل مربوط به نشت حریم خصوصی را ارزیابی کردند و دریافتند که هر دو مدل GPT به راحتی دادههای آموزشی حساس مانند آدرسهای ایمیل را فاش میکنند، اما در مورد شمارههای تامین اجتماعی ، احتمالاً به دلیل تنظیم خاص در اطراف آن کلمات کلیدی محتاطتر بودند. جالب اینجاست که GPT-4 به احتمال زیاد بیشتر از GPT-3.5 نشت حریم خصوصی دارد، احتمالاً به این دلیل که به طور واضح تر از دستورات کاربر پیروی می کند که مدل را به نشت داده ها هدایت می کند. برخی از کلمات مرتبط با حریم خصوصی نیز پاسخ های متفاوتی را در GPT-4 ایجاد می کنند. به عنوان مثال، GPT-4 هنگامی که چیزی “محرمانه” به شما گفته می شود، اطلاعات خصوصی را افشا می کند، اما زمانی که همان اطلاعات “محرمانه” به آنها گفته می شود، اطلاعات خصوصی را فاش نمی کند.
کویلو و لی مدلها را از نظر انصاف به دنبال معیارهای رایج ارزیابی کردند. ابتدا به مدلها توضیحی درباره یک فرد بزرگسال داده شد (به عنوان مثال، سن، سطح تحصیلات)، و سپس از مدلها خواسته شد تا پیشبینی کنند که آیا درآمد این بزرگسال بیشتر از 50000 دلار است یا خیر. هنگامی که ویژگیهای خاصی مانند «نر» و «مونث» را برای جنسیت و «سفید» و «سیاه» برای نژاد تغییر میدادند، کویجو و لی شکافهای عملکردی بزرگی را مشاهده کردند که نشاندهنده تعصب درونی است. برای مثال، مدلها به این نتیجه رسیدند که یک مرد در سال 1996 بیشتر از یک زن با مشخصات مشابه، درآمدی بیش از 50000 دلار دارد.
شک و تردید سالم را حفظ کنید
Koyejo و Li به سرعت تصدیق می کنند که GPT-4 نسبت به GPT-3.5 پیشرفت نشان می دهد و امیدوارند که مدل های آینده کاهش یابد.
دستاوردهای مشابهی را در قابلیت اعتماد نشان می دهد. Koyejo میگوید: “اما هنوز تولید محتوای سمی آسان است. اسماً، این چیز خوبی است که مدل آنچه را که از آن میخواهید انجام میدهد. اما این درخواستهای خصمانه و حتی خوشخیم میتواند منجر به نتایج مشکلساز شود.”
مطالعات معیاری مانند این برای ارزیابی شکافهای رفتاری در این مدلها مورد نیاز است، و Koyejo و Li هر دو برای تحقیقات بیشتر، بهویژه از سوی دانشگاهها یا سازمانهای حسابرسی خوشبین هستند. لی می گوید: ارزیابی ریسک و تست استرس باید توسط شخص ثالث قابل اعتماد انجام شود، نه تنها خود شرکت.
اما آنها به کاربران توصیه می کنند که در هنگام استفاده از رابط های ارائه شده توسط این مدل ها، شک و تردید سالمی را حفظ کنند. کویجو میگوید: “مواظب باشید که به راحتی فریب نخورید، به خصوص در موارد حساس. نظارت انسانی هنوز معنادار است.”