18 جولای 2023 -توسط Jan Overney، ETH زوریخ-اعتبار: دامنه عمومی Pixabay/CC0
علیرغم موفقیت عظیم آنها، عملکرد درونی مدل های زبان بزرگ مانند خانواده مدل GPT OpenAI و Google Bard حتی برای توسعه دهندگان آنها یک راز باقی مانده است. محققان در ETH و Google یک مکانیسم کلیدی بالقوه را در پشت توانایی آنها برای یادگیری در حین کار و تنظیم دقیق پاسخ های خود بر اساس تعامل با کاربران خود کشف کرده اند.
یوهانس فون اسوالد دانشجوی دکترا در گروهی است که توسط آنجلیکا استگر، استاد ETH علوم کامپیوتر نظری، رهبری میشود و در مورد الگوریتمهای یادگیری برای شبکههای عصبی تحقیق میکند. مقاله جدید او در کنفرانس بین المللی یادگیری ماشین (ICML) در اواخر جولای ارائه خواهد شد. در حال حاضر در سرور preprint arXiv موجود است.
- T در GPT مخفف ترانسفورماتور است. ترانسفورماتورها چیست و چرا در هوش مصنوعی مدرن بسیار رایج شده اند؟
یوهانس فون اسوالد: ترانسفورماتورها یک معماری شبکه عصبی مصنوعی خاص هستند. به عنوان مثال توسط مدل های زبان بزرگ مانند ChatGPT استفاده می شود، اما در سال 2017 توسط محققان گوگل روی طرح قرار گرفت، جایی که منجر به عملکرد پیشرفته در ترجمه زبان شد. جالب اینجاست که یک نسخه کمی تغییر یافته از این معماری قبلاً توسط AI-Pioneer Jürgen Schmidhuber در سال 1991 توسعه یافته بود.
- و چه چیزی این معماری را متمایز می کند؟
قبل از پیشرفت اخیر Transformers، وظایف مختلفی مانند طبقه بندی تصویر و ترجمه زبان، از معماری مدل های مختلفی استفاده می کردند که هر کدام در این حوزه های خاص تخصصی بودند. یکی از جنبه های مهم که ترانسفورماتورها را از مدل های قبلی هوش مصنوعی متمایز می کند این است که به نظر می رسد آنها در هر نوع کاری بسیار خوب کار می کنند. به دلیل استفاده گسترده از آنها، درک نحوه عملکرد آنها مهم است.
- تحقیقات شما چه چیزی را نشان داد؟
در حالی که شبکه های عصبی به طور کلی به عنوان یک جعبه سیاه در نظر گرفته می شوند که خروجی را با ورودی ارائه می کنند، ما نشان دادیم که ترانسفورماتورها می توانند به تنهایی پیاده سازی الگوریتم ها را در معماری خود بیاموزند. ما توانستیم نشان دهیم که آنها می توانند یک الگوریتم یادگیری ماشین کلاسیک و قدرتمند را پیاده سازی کنند که از اطلاعات اخیری که دریافت می کند یاد می گیرد.
- آیا می توانید مثالی بزنید که این نوع یادگیری چه زمانی ممکن است رخ دهد؟
برای مثال، میتوانید چندین متن و احساسات مثبت یا منفی مرتبط با هر یک از آنها را به مدل زبان ارائه کنید. می توانید در ادامه مدل را با متنی که قبلاً ندیده ارائه دهید و بر اساس مثال هایی که ارائه کرده اید مثبت یا منفی بودن آن را پیش بینی می کند.
- پس شما می گویید که مدل به خود تکنیکی برای یادگیری چیزهای جدید یاد می دهد؟
بله، تعجب آور است اما حقیقت دارد. صرفاً به دلیل فشار برای بهبود هدف آموزشی خود، یعنی پیشبینی آینده نزدیک، تکنیکی را توسعه میدهد که به او امکان میدهد از مکالماتی که برای مثال با کاربران خود دارد، بیاموزد. این نوع یادگیری همان چیزی است که ما از آن به عنوان یادگیری درون زمینه ای یاد می کنیم.
- تمام این مدل ها ورودی متن است. آیا می توانید توضیح دهید که چگونه ترانسفورماتورها از این حداقل اطلاعات برای بهینه سازی خروجی خود استفاده می کنند؟
یکی از راههای دستیابی به این هدف – و مقاله ما نشان میدهد که این یک احتمال محتمل است – این است که یاد بگیرید چه چیزی را مدل جهانی مینامید که به شما امکان پیشبینی میدهد. جالب اینجاست که این یادگیری در داخل ترانسفورماتوری که قبلا آموزش داده شده صورت می گیرد. یادگیری معمولاً شامل تغییر اتصالات در شبکه عصبی مدل است. ما نشان دادیم که مدل ترانسفورماتور به نوعی قادر است همان فرآیند یادگیری را در معماری عصبی ثابت خود شبیهسازی کند.
- چگونه این قابلیت در ترانسفورماتورها پدیدار می شود؟
ما در مقاله خود فرض کردیم که معماری ترانسفورماتور یک سوگیری القایی نسبت به یادگیری دارد. این بدان معنی است که توانایی آن برای توسعه این مکانیسم های یادگیری به طور ضمنی در طراحی اولیه آن گنجانده شده است، حتی قبل از آموزش مدل.
- GPT-3، مدل پشت سر ChatGPT، دارای 175 میلیارد پارامتر است. چگونه چنین سیستم بزرگی را مطالعه می کنید؟
راه های مختلفی برای تلاش برای درک این سیستم ها وجود دارد. برخی از محققان رویکردی روانشناختی دارند و نحوه واکنش مدلها در مواجهه با آزمونهای استاندارد شده یا موقعیتهای متضاد مانند معضلات اخلاقی را تحلیل میکنند. ما این سیستم را به صورت مکانیکی مطالعه کردیم . اگر این تشبیه را بیشتر پیش ببریم، چون مدل ما روی یک کامپیوتر اجرا میشود، توانستیم هر نورون و هر اتصالی را در شبکه عصبی آن ثبت کنیم – چیزی که هنگام مطالعه مغز بیولوژیکی حیوانات یا انسان غیرقابل تصور است. بررسی این سیستم ها در سطح سلول های عصبی منفرد در حال حاضر تنها زمانی امکان پذیر است که پدیده های بسیار خاص در معماری های نسبتاً کوچک مطالعه شوند.
- آیا می توانید اطلاعات بیشتری در مورد سیستمی که در مقاله خود استفاده کرده اید ارائه دهید؟
ترانسفورماتور ما در مطالعه خود تقریباً مشابه معماری ترانسفورماتور رایج است. به جای آموزش سیستم خود بر روی تمام متون موجود در اینترنت، آن را بر روی نمونه هایی از یک Simp آموزش دادیم مشکلی که به عنوان رگرسیون خطی شناخته می شود. از آنجا که این مشکل و راه حل آن به خوبی درک شده است، ما توانستیم راه حل شناخته شده را با آنچه در داخل ترانسفورماتور مشاهده کردیم مقایسه کنیم. ما تأیید کردیم که یک الگوریتم یادگیری بسیار شناخته شده و قدرتمند را در خود به نام نزول گرادیان پیاده سازی می کند.
- آیا انتظار دارید رفتار دیگری ظاهر شود که برای علوم کامپیوتر کاملاً جدید باشد؟
ممکن است. در مورد ما، ما توانستیم نشان دهیم که ترانسفورماتور به سادگی نزول گرادیان ساده را انجام نمی دهد، بلکه یک نسخه بهبود یافته از آن است. دو مطالعه مستقل از MIT و UC Berkeley اکنون الگوریتمی را که ترانسفورماتور آموخته است، تجزیه و تحلیل کرده اند. هدف بلندمدت این خط از تحقیقات می تواند تعیین این باشد که آیا ترانسفورماتورها می توانند الگوریتم ها را کشف کنند یا حتی قضایایی را اثبات کنند و ریاضیاتی را توسعه دهند که ما هنوز با آنها آشنا نیستیم. این واقعاً قابل توجه و راهگشا خواهد بود.