توسط موسسه علم و فناوری Skolkovo – 14 فوریه 2022 – نمونه هایی از الگوهای تولید شده مصنوعی برای آموزش شبکه های عصبی برای تشخیص فرمول های شیمیایی واقعی. اعتبار: ایوان خوخلوف و همکارانروش های شیمی
محققان Syntelly – استارت آپی که در Skoltech ایجاد شده است – دانشگاه دولتی Lomonosov مسکو و دانشگاه Sirius یک راه حل مبتنی بر شبکه عصبی برای تشخیص خودکار فرمول های شیمیایی در اسکن مقاله تحقیقاتی ایجاد کرده اند. این مطالعه در Chemistry-Methods، مجله علمی انجمن شیمی اروپا منتشر شد.
بشریت در حال ورود به عصر هوش مصنوعی است. شیمی نیز با روشهای مدرن یادگیری عمیق، که همواره به مقادیر زیادی دادههای کیفی برای آموزش شبکههای عصبی نیاز دارد، دگرگون خواهد شد.
خبر خوب این است که داده های شیمیایی به خوبی کار می کنند و حتی اگر یک ترکیب خاص در ابتدا 100 سال پیش سنتز شده باشد، اطلاعات در مورد ساختار، خواص و روش های سنتز آن تا به امروز مرتبط است. حتی در زمان دیجیتالی شدن جهانی ما، ممکن است اتفاق بیفتد که یک شیمیدان آلی برای کسب اطلاعات در مورد یک مولکول ضعیف به یک مقاله مجله یا پایان نامه اصلی از یک مجموعه کتابخانه -که در اوایل قرن بیستم، مثلاً به زبان آلمانی منتشر شده است- مراجعه کند .
خبر بد این است که هیچ روش استاندارد پذیرفته شده ای برای ارائه فرمول های شیمیایی وجود ندارد. شیمیدانان معمولاً از ترفندهای زیادی در روش علامت گذاری مختصر برای گروه های شیمیایی آشنا استفاده می کنند. به عنوان مثال، پایه های ممکن برای یک گروه ترت بوتیل شامل “tBu”، “t-Bu” و “tert-Bu است. بدتر از همه، شیمیدانان اغلب از یک الگو با “جایگاه”های مختلف R1، R2، و غیره برای ارجاع به بسیاری از ترکیبات مشابه استفاده می کنند، اما این نمادهای مکان نگهدار ممکن است در هر جایی تعریف شوند: در خود شکل، در متن در حال اجرا . ناگفته نماند که سبک های طراحی در مجلات متفاوت است و با گذشت زمان تکامل می یابد، عادات شخصی شیمیدانان متفاوت است و قراردادها تغییر می کند. در نتیجه، حتی یک شیمیدان متخصص گاهی اوقات خود را در تلاش برای فهمیدن «معمایی» که در برخی از مقالهها یافتهاند، در مضیقه میبیند. برای یک الگوریتم کامپیوتری، این کار غیرقابل حل به نظر می رسد.
با این حال، با نزدیک شدن به آن، محققان قبلاً تجربه مقابله با مشکلات مشابه با استفاده از Transformer را داشتند – یک شبکه عصبی که در ابتدا توسط گوگل برای ترجمه ماشینی پیشنهاد شده بود. این تیم به جای ترجمه متن بین زبانها، از این ابزار قدرتمند برای تبدیل تصویر یک مولکول یا یک الگوی مولکولی به نمایش متنی آن استفاده کرد. چنین نمایشی Functional-Group-SMILES نامیده می شود.
در کمال تعجب محققین، شبکه عصبی ثابت کرد که تقریباً هر چیزی را میآموزد، مشروط بر اینکه سبک تصویر مربوطه در دادههای آموزشی نشان داده شود. همانطور که گفته شد، ترجمه به ده ها میلیون نمونه برای آموزش نیاز دارد، و جمع آوری بسیاری از فرمول های شیمیایی از مقالات تحقیقاتی با دست غیرممکن است. بنابراین به جای آن، تیم رویکرد دیگری را اتخاذ کرد و یک تولیدکننده داده ایجاد کرد که نمونههایی از الگوهای مولکولی را با ترکیب قطعات مولکولی انتخابی تصادفی و سبکهای تصویر تولید میکند.
“مطالعه ما نمایش خوبی از تغییر پارادایم در حال انجام در تشخیص نوری ساختارهای شیمیایی است. در حالی که تحقیقات قبلی بر روی تشخیص ساختار مولکولی به خودی خود متمرکز بود، اکنون که ظرفیتهای منحصر به فرد ترانسفورماتور و شبکههای مشابه را داریم، میتوانیم به جای آن خود را وقف کنیم. ایجاد ژنراتورهای نمونه مصنوعی که بیشتر سبکهای موجود در تصویرسازی الگوی مولکولی را تقلید میکنند. الگوریتم ما مولکولها، گروههای عملکردی، فونتها، سبکها، حتی نقصهای چاپی را ترکیب میکند، بیتهایی از مولکولهای اضافی، قطعات انتزاعی و غیره را معرفی میکند. حتی یک شیمیدان نیز سرگئی سوسنین، محقق اصلی این مطالعه، مدیر عامل شرکت سینتلی، استارت آپی که در Skoltech تأسیس شده است، گفت: تشخیص مولکول مستقیماً از یک کاغذ واقعی یا از ژنراتور دشوار است.
نویسندگان این مطالعه امیدوارند که روش آنها گام مهمی به سوی یک سیستم هوش مصنوعی باشد که قادر به “خواندن” و “درک” مقالات تحقیقاتی تا حدی باشد که یک شیمیدان بسیار ماهر این کار را انجام می دهد.