مدلی جدید برای تولید موسیقی نمادین با استفاده از ابرداده های موسیقی

1 اکتبر 2024 – توسط Ingrid Fadelli، Tech Xplore-اسکرین شات از نسخه ی نمایشی سیستم تیم که رابط کاربری آن را نشان می دهد. اعتبار: هان و همکاران

هوش مصنوعی (AI) فرصت های جالب جدیدی را برای صنعت موسیقی باز کرده است، به عنوان مثال، امکان توسعه ابزارهایی را فراهم می کند که می توانند به طور خودکار آهنگ های موسیقی یا آهنگ های ساز خاص را تولید کنند. با این حال، بیشتر ابزارهای موجود برای استفاده ، برخلاف کاربران غیرمتخصص توسط نوازندگان، آهنگسازان و تولیدکنندگان موسیقی طراحی شده‌اند.

محققان LG AI Research اخیراً یک سیستم تعاملی جدید ایجاد کرده اند که به هر کاربری اجازه می دهد به راحتی ایده های خود را به موسیقی ترجمه کند. این سیستم، که در مقاله منتشر شده در سرور preprint arXiv مشخص شده است، یک ترانسفورماتور اتورگرسیو فقط رمزگشا را که بر روی مجموعه داده های موسیقی آموزش دیده است، با یک رابط کاربری بصری ترکیب می کند.

سانگجون هان، جیوون هام و همکارانشان در مقاله خود نوشتند: “ما نمایش نسل موسیقی نمادین را با تمرکز بر ارائه موتیف های کوتاه موسیقایی که به عنوان موضوع اصلی روایت عمل می کنند، معرفی می کنیم.” برای نسل جدید، ما یک مدل اتورگرسیو را اتخاذ می کنیم که ابرداده های موسیقی را به عنوان ورودی می گیرد و 4 نوار از توالی های MIDI چند آهنگی تولید می کند.

مدل مبتنی بر ترانسفورماتور زیربنای سیستم تولید موسیقی نمادین تیم بر روی دو مجموعه داده موسیقی، یعنی مجموعه داده Lakh MIDI و مجموعه داده MetaMIDI آموزش داده شد. در مجموع، این مجموعه داده ها حاوی بیش از 400000 فایل MIDI (رابط دیجیتال آلات موسیقی) هستند که فایل های داده ای حاوی اطلاعات مختلف در مورد آهنگ های موسیقی (به عنوان مثال، نت های پخش شده، مدت زمان نت ها، سرعت پخش آنها) هستند.

برای آموزش مدل خود، تیم هر فایل MIDI را به یک فایل نمایش رویداد موسیقی (REMI) تبدیل کرد. این فرمت خاص، داده‌های MIDI را در توکن‌هایی رمزگذاری می‌کند که نشان‌دهنده ویژگی‌های مختلف موسیقی (مانند زیر و بم و سرعت) هستند. فایل‌های REMI پویایی موسیقی را به شیوه‌هایی به تصویر می‌کشند که برای آموزش مدل‌های هوش مصنوعی برای تولید موسیقی مناسب است.

محققان نوشتند: «در طول آموزش، ما به‌طور تصادفی توکن‌هایی را از ابرداده‌های موسیقی حذف می‌کنیم تا کنترل انعطاف‌پذیر را تضمین کنیم». “این آزادی را برای کاربران فراهم می کند تا انواع ورودی را با حفظ عملکرد تولیدی انتخاب کنند و انعطاف پذیری بیشتری را در ترکیب موسیقی فراهم می کند.”

هان، هام و همکارانشان علاوه بر توسعه مدل مبتنی بر ترانسفورماتور خود برای تولید موسیقی نمادین، یک رابط کاربری ساده ایجاد کردند که هم برای کاربران متخصص و هم برای کاربران غیرمتخصص قابل دسترسی است. این رابط در حال حاضر از یک نوار کناری و یک پانل تعاملی مرکزی تشکیل شده است.

در نوار کناری، کاربران می‌توانند جنبه‌هایی از موسیقی را که می‌خواهند مدل تولید کند، مشخص کنند، مانند سازهایی که باید پخش شوند و سرعت آهنگ. پس از اینکه مدل آهنگی را تولید کرد، می‌توانند آهنگ را در پانل مرکزی ویرایش کنند، برای مثال، با حذف/افزودن سازها یا تنظیم زمان شروع پخش موسیقی.

هان، هام و همکارانشان نوشتند: «ما اثربخشی استراتژی را از طریق آزمایش‌ها از نظر ظرفیت مدل، وفاداری موسیقی، تنوع و کنترل‌پذیری تأیید می‌کنیم. “علاوه بر این، ما مدل را مقیاس‌بندی می‌کنیم و آن را با سایر مدل‌های تولید موسیقی از طریق یک آزمون ذهنی مقایسه می‌کنیم. نتایج ما نشان دهنده برتری آن در کنترل و کیفیت موسیقی است.”

محققان دریافتند که مدل آنها به طور قابل توجهی عملکرد خوبی دارد و می تواند به طور قابل اعتماد حداکثر 4 نوار موسیقی بر اساس مشخصات کاربر تولید کند. در مطالعات آتی خود، آنها می‌توانند سیستم خود را با افزایش مدت زمان آهنگ‌هایی که مدلشان می‌تواند ایجاد کند، گسترش بیشتر مشخصاتی که کاربران می‌توانند ارائه دهند، و بهبود بیشتر رابط کاربری سیستم، بهبود بخشند.

محققان نوشتند: «مدل ما که برای تولید 4 نوار موسیقی با کنترل جهانی آموزش داده شده است، محدودیت‌هایی در افزایش طول موسیقی و کنترل عناصر محلی در سطح نوار دارد. با این حال، تلاش‌های ما در تولید تم‌های موسیقی با کیفیت بالا که می‌توانند به عنوان حلقه استفاده شوند، اهمیت دارد.»

https://techxplore.com