5 آگوست 2024 -توسط Magdalena Gonciarz، دانشگاه صنعتی درسدن -نمایشی هنری از مدل زبان بزرگ آموزشدیده بر روی توالیهای DNA اعتبار: Magdalena Gonciarz، تولید شده با Dall-E3
DNA حاوی اطلاعات اساسی مورد نیاز برای حفظ حیات است. درک چگونگی ذخیره و سازماندهی این اطلاعات یکی از بزرگترین چالش های علمی قرن گذشته بوده است.
با GROVER، یک مدل زبان بزرگ جدید که بر روی DNA انسان آموزش داده شده است، محققان اکنون می توانند سعی کنند اطلاعات پیچیده پنهان در ژنوم ما را رمزگشایی کنند.
GROVER که توسط تیمی در مرکز بیوتکنولوژی (BIOTEC) دانشگاه صنعتی درسدن توسعه داده شده است، با DNA انسان به عنوان یک متن رفتار می کند و قوانین و زمینه آن را برای ترسیم اطلاعات کاربردی در مورد توالی های DNA یاد می گیرد. این ابزار جدید که در Nature Machine Intelligence منتشر شده است، پتانسیل تغییر ژنومیک و تسریع پزشکی شخصی را دارد.
از زمان کشف مارپیچ دوگانه، دانشمندان به دنبال درک اطلاعات رمزگذاری شده در DNA بوده اند. 70 سال بعد، مشخص است که اطلاعات پنهان در DNA چند لایه است. تنها 1 تا 2 درصد از ژنوم از ژن ها تشکیل شده است، توالی هایی که پروتئین ها را کد می کنند.
DNA عملکردهای زیادی فراتر از کدگذاری برای پروتئین ها دارد. برخی از توالی ها ژن ها را تنظیم می کنند، برخی دیگر اهداف ساختاری را انجام می دهند، بیشتر توالی ها چندین عملکرد را به طور همزمان انجام می دهند. در حال حاضر، ما معنای بیشتر DNA را نمی دانیم. وقتی نوبت به درک غیر از آن می رسد. دکتر آنا پوئتش، رهبر گروه تحقیقاتی در BIOTEC میگوید: با کدگذاری مناطق DNA، به نظر میرسد که ما فقط شروع به خراشیدن سطح کردهایم.
مدلهای بزرگ زبان، مانند GPT، درک ما از زبان را تغییر دادهاند. مدل های زبان بزرگ که منحصراً بر روی متن آموزش دیده بودند، توانایی استفاده از زبان را در بسیاری از زمینه ها توسعه دادند.
DNA رمز زندگی است. چرا با آن مانند یک زبان رفتار نکنیم؟” تیم Poetsch یک مدل زبان بزرگ را بر روی ژنوم انسانی مرجع آموزش داد. ابزار بدست آمده به نام GROVER یا “قوانین ژنوم بدست آمده از طریق بازنمایی های استخراج شده” می تواند برای استخراج معنای بیولوژیکی از DNA استفاده شود.
GROVER قوانین DNA را یاد گرفت. از نظر زبان، ما در مورد دستور زبان، نحو و معنایی صحبت می کنیم. برای DNA، این به معنای یادگیری قوانین حاکم بر توالی ها، ترتیب نوکلئوتیدها و توالی ها و معنای توالی ها است. دکتر ملیسا سانابریا، محقق این پروژه توضیح میدهد که مانند مدلهای GPT که زبانهای انسانی را یاد میگیرند، GROVER اساساً نحوه صحبت کردن با DNA را آموخته است.
این تیم نشان داد که GROVER نه تنها میتواند توالیهای DNA زیر را بهطور دقیق پیشبینی کند، بلکه میتواند برای استخراج اطلاعات زمینهای که معنای بیولوژیکی دارد، به عنوان مثال، شناسایی محرکهای ژن یا مکانهای اتصال پروتئین روی DNA استفاده شود. GROVER همچنین فرآیندهایی را می آموزد که به طور کلی به عنوان “اپی ژنتیک” در نظر گرفته می شوند، یعنی فرآیندهای تنظیمی که در بالای DNA اتفاق می افتد به جای اینکه رمزگذاری شوند.
دکتر صنابریا می گوید.جالب است که با آموزش GROVER تنها با توالی DNA، بدون هیچ حاشیه نویسی از توابع، ما در واقع قادر به استخراج اطلاعات در مورد عملکرد بیولوژیکی هستیم. برای ما، نشان می دهد که تابع، از جمله برخی از اطلاعات اپی ژنتیک، نیز رمزگذاری شده است.
دکتر پوئتش می گوید DNA شبیه زبان است. چهار حرف دارد که توالی ها را می سازند و توالی ها دارای معنی هستند. با این حال، بر خلاف زبان، DNA هیچ کلمه تعریف شده ای ندارد DNA از چهار حرفA، T، G و C و ژن تشکیل شده است، اما هیچ توالی از پیش تعریفشدهای با طولهای مختلف وجود ندارد که برای ساختن ژنها یا سایر توالیهای معنیدار ترکیب شوند.
برای آموزش GROVER، تیم ابتدا باید یک فرهنگ لغت DNA ایجاد کند. آنها از ترفندی از الگوریتم های فشرده سازی استفاده کردند. دکتر پوئتش می گوید: “این مرحله بسیار مهم است و مدل زبان DNA ما را از تلاش های قبلی متمایز می کند.”
“ما کل ژنوم را تجزیه و تحلیل کردیم و به دنبال ترکیبی از حروف بودیم که اغلب اتفاق می افتد. ما با دو حرف شروع کردیم و دوباره و دوباره به DNA رفتیم تا آن را به رایج ترین ترکیبات چند حرفی بسازیم. به این ترتیب، دکتر سانابریا توضیح می دهد که در حدود 600 چرخه، ما DNA را به “کلماتی” تقسیم کرده ایم که به GROVER اجازه می دهد بهترین عملکرد را در پیش بینی دنباله بعدی داشته باشد.”
GROVER قول می دهد که قفل لایه های مختلف کد ژنتیکی را باز کند. DNA اطلاعات کلیدی در مورد آنچه ما را انسان می کند، استعدادهای بیماری و پاسخ ما به درمان ها را در اختیار دارد.
دکتر پوئتش می گوید: “ما معتقدیم که درک قوانین DNA از طریق یک مدل زبانی به ما کمک می کند تا اعماق معنای بیولوژیکی پنهان در DNA را کشف کنیم و هم ژنومیک و هم پزشکی شخصی را پیش ببریم.”