آهنگسازی با هوش مصنوعی stable audio 2.0

چکیدهدر این مقاله می‌خواهیم به معرفی هوش مصنوعی stable audio 2.0 و همچنین بررسی ویژگی‌های جدید آن بپردازیم. ممکن است شما هم درگیر مبحث کپی رایت و پاک شدن آهنگ‌هایتان توسط یوتیوب، اینستاگرام و... شده باشید. می‌توانیم به شما این نوید را بدهیم که از این به بعد می‌توانید با استفاده از این هوش مصنوعی، آهنگ‌هایی را با سلیقه خود از طریق تبدیل متن به آهنگ یا آهنگ به آهنگ، ساخته و از آن لذت ببرید.

در این مقاله می‌خواهیم به معرفی هوش مصنوعی stable audio 2.0 که یک هوش مصنوعی رایگان برای تولید آهنگ‌های بدون کپی رایت است، بپردازیم. حتما شما هم تا به حال در پیدا کردن آهنگ برای تیزر، ویدیوهای یوتیوب، تیک‌تاک، اینستاگرام و… دچار مشکل شده‌اید. این‌بار می‌خواهیم به موضوع آهنگسازی با هوش مصنوعی stable audio 2.0 بپردازیم.

امروزه با پیشرفت روزافزون تکنولوژی، شاهد افزایش هوش‌های مصنوعی با کاربری‌های متفاوت هستیم. یکی از کمپانی‌هایی که در این عرصه به‌طور پیشتاز عمل کرده است، شرکت stability ai است. حتما تا به حال نام استیبل دیفیوژن به گوشتان خورده است، استیبل دیفیوژن قدرتمندترین هوش مصنوعی در عرصه ساخت و ادیت عکس و ویدیو و انیمیشن می‌باشد. حالا ما شاهد این هستیم که کمپانی stability ai در عرصه تولید آهنگ هم دست به کار شده و هوش مصنوعی stable audio را معرفی کرده است. در ادامه می‌خواهیم به معرفی این هوش مصنوعی رایگان پرداخته و ویژگی‌های آن را باهم بررسی کنیم.

معرفی هوش مصنوعی stable audio 2.0

Stable Audio یک ابزار هوش مصنوعی مبتنی بر متن است که به شما امکان می‌دهد آهنگ‌های کوتاه بسازید. این ابزار توسط Stability AI، یک شرکت تحقیقاتی هوش مصنوعی که به خاطر مدل‌های Stable Diffusion و Disco Diffusion خود شناخته شده است، در سپتامبر 2023 رونمایی شد. این هوش مصنوعی در ابتدا قادر به تولید یک آهنگ با مدت زمان حداکثر 90 ثانیه بود. ولی کمپانی stability ai در مارچ 2024، از نسخه دوم این هوش مصنوعی یعنی stable audio 2.0 رونمایی کرد، این هوش مصنوعی قادر است تا آهنگ‌هایی با مدت زمان حداکثر 3 دقیقه تولید کند.

جدیدترین مدل صوتی stability ai با قابلیت‌های جدیدش جعبه ابزار خلاقیت هنرمندان و موسیقی‌دانان را گسترش می‌دهد. با استفاده از دستورات متن به صدا و صدا به صدا، کاربران می‌توانند ملودی‌ها، قطعه‌های پشتیبان، استم‌ها و جلوه‌های صوتی بسازند و بدین ترتیب، فرآیند خلاقیت را بهبود بخشند.

در این‌جا قسمتی از مقاله‌ای که توسط کمپانی stability ai منتشر شده است را باهم می‌خوانیم:

“امروز، با معرفی Stable Audio 2.0 بسیار خوشحالیم. این مدل با استفاده از یک عبارت با زبان طبیعی، امکان تولید آهنگ‌های کامل با کیفیت بالا، ساختار موسیقی منسجم و حداکثر با مدت زمان سه دقیقه و با فرکانس ۴۴.۱ کیلوهرتز در حالت استریو را فراهم می‌کند. مدل جدید فراتر از متن به صدا عمل می‌کند و قابلیت‌های صدا به صدا را نیز ارائه می‌ دهد. کاربران اکنون می‌توانند نمونه‌های صوتی را آپلود کرده و از طریق عبارات با زبان طبیعی، آن‌ها را به گستره‌ی وسیعی از صداها تبدیل کنند. این به‌روزرسانی همچنین با گسترش تولید جلوه‌های صوتی و انتقال سبک، انعطاف‌پذیری، کنترل و فرایند خلاقانه‌ی پیشرفته‌تری را برای هنرمندان و موسیقی‌دانان فراهم می‌کند.

Stable Audio 2.0 بر اساس Stable Audio 1.0 ساخته شده است که در سپتامبر ۲۰۲۳ به عنوان اولین ابزار تولید موسیقی هوش مصنوعی با قابلیت تجاری و توانایی تولید موسیقی با کیفیت بالا ۴۴.۱ کیلوهرتز با استفاده از تکنولوژی توزیع پنهان، معرفی شد. این ابزار از آن زمان به عنوان یکی از بهترین اختراعات ۲۰۲۳ مجله‌ی تایم شناخته شده است. این مدل جدید هم‌اکنون به صورت رایگان در وب‌سایت Stable Audio قابل استفاده است و به زودی از طریق درگاه برنامه‌نویسی کاربردی Stable Audio در دسترس خواهد بود.”

نحوه عمل‌کرد stable audio

Stable Audio از یک مدل زبانی بزرگ (LLM) برای تبدیل متن به موسیقی استفاده می‌کند. LLM بر روی مجموعه داده‌های عظیمی از متن و موسیقی آموزش دیده است. این به LLM اجازه می‌دهد تا الگوهای بین متن و موسیقی را یاد بگیرد و از این الگوها برای تولید موسیقی جدید بر اساس متن ارائه‌شده توسط کاربر استفاده کند.

البته در نسخه جدید Stable Audio 2.0 برای تبدیل ایده‌ها به نمونه‌های کاملا ساخته شده، امکان آپلود فایل‌های صوتی فراهم شده است. شرایط و قوانین این کمپانی، الزام می‌کند که فایل‌های آپلود شده بدون حق کپی رایت باشند. این هوش مصنوعی برای حفظ انطباق با این قوانین و جلوگیری از نقض حق کپی رایت، از سیستم تشخیص پیشرفته محتوا استفاده می‌کند.

قابلیت‌های stable audio 2.0

ویژگی اول: Stable audio 2.0 استاندارد جدیدی را در صدای تولید شده توسط هوش مصنوعی تعیین می‌کند و قادر است تا آهنگ‌های با کیفیت بالا و کامل با ساختار موسیقی منسجم را با مدت زمان حداکثر 3 دقیقه و با فرکانس 44.1 کیلوهرتز، در حالت استریو تولید کند.

ویژگی دوم: این مدل جدید قابلیت تولید صدا از صدا را معرفی می کند که به کاربران امکان می‌دهد با استفاده از متن (عبارات طبیعی) نمونه‌هایی را بارگذاری و آن‌ها را تغییر دهند.

ویژگی سوم: stable audio می‌تواند آهنگ‌هایی در ژانرهای مختلف مانند پاپ، راک، الکترونیک، کلاسیک و غیره تولید کند.

ویژگی چهارم: Stable Audio به شما امکان می‌دهد تنظیمات مختلفی مانند سرعت، گام، تونالیته و سازها را تنظیم کنید.

ویژگی پنجم: Stable Audio دارای رابط کاربری ساده‌ای است که استفاده از آن را برای هر کسی آسان می‌کند.

ویژگی ششم: این مدل با توانایی ساخت صدا و جلوه‌های صوتی متنوع، از تایپ کردن روی کیبورد گرفته تا غرش جمعیت یا همهمه خیابان‌های شهر، روش‌های جدیدی برای ارتقای پروژه‌های صوتی ارائه می‌دهد.

ویژگی هفتم: این ویژگی جدید، صدای ساخته‌شده یا آپلود شده‌ی شما را در طی فرآیند تولید به طور یکپارچه تغییر می‌دهد. این قابلیت امکان سفارشی‌سازی تم خروجی را برای مطابقت با سبک و لحن خاص پروژه شما فراهم می‌کند.

در این قسمت، چند نمونه از آهنگ‌هایی‌ که با هوش مصنوعی stable audio 2.0 ساخته شده است را به همراه پرامپتی که به آن داده‌ایم مشاهده می‌کنید:

Prompt: Energizing and exciting music for an advertising teaser, car advertising teaser, high speed indicator, technology, beautiful, beat, beautiful peaks and valleys in the rhythm

Prompt: Solo violin playing, with a frequency of 963 Hz, soulful, relaxing, suitable for meditation

Prompt: A song for a children’s cartoon for ages 5 to 8, childish, happy, use guitar, violin, drum, organ, beautiful, pop, use the sound effects of children’s laughter, the noise of children

شما می‌توانید همین الان از طریق لینک وب‌سایت Stable audio به طور رایگان از این هوش مصنوعی استفاده کنید.

معماری مدل توزیع پنهان Stable Audio 2.0

معماری مدل توزیع پنهان Stable Audio 2.0 به طور خاص برای تولید قطعه‌های کامل با ساختارهای منسجم طراحی شده است. برای دستیابی به این هدف، همه اجزای سیستم را برای عملکرد بهتر در بازه‌های زمانی طولانی‌تر تطبیق داده‌اند. یک رمزگذار خودکار (autoencoder) بسیار فشرده، شکل موج صدای خام را به نمایه‌های بسیار کوتاه‌تری فشرده می‌کند. برای مدل توزیع، به جای U-Net قبلی، از یک توزیع‌گر تبدیلی (diffusion transformer – DiT) مشابه آنچه در Stable Diffusion 3 استفاده می‌شود، استفاده می‌کنند، زیرا در دستکاری داده‌ها روی توالی‌های طولانی توانمندتر است. ترکیب این دو عنصر منجر به مدلی می‌شود که قادر به شناسایی و بازتولید ساختارهای بزرگ‌مقیاس است که برای آهنگسازی باکیفیت ضروری هستند.

نحوه عملکرد رمزگذار خودکار در هوش مصنوعی stable audio 2.0

رمزگذار خودکار، صدا را فشرده کرده و سپس آن را به حالت اصلی باز می‌گرداند. این کار با گرفتن ویژگی‌های ضروری صدا و بازتولید آن‌ها در حالی که جزئیات کم‌اهمیت‌تر را فیلتر می‌کند، برای دستیابی به تولیدات منسجم‌تر انجام می‌شود.

توزیع‌گر تبدیلی (Diffusion Transformer – DiT) به طور افزایشی نویز تصادفی را به داده‌ی ساختارمند تبدیل می‌کند، در این فرآیند الگوها و روابط پیچیده را شناسایی می‌کند. با ترکیب شدن با رمزگذار خودکار، قابلیت پردازش توالی‌های طولانی‌تر را به دست می‌آورد تا تفسیر عمیق‌تر و دقیق‌تری از ورودی‌ها ایجاد کند.

تدابیر امنیتی

مشابه مدل ۱.۰، مدل ۲.۰ نیز روی داده‌هایی از AudioSparx آموزش داده شده است که شامل بیش از ۸۰۰،۰۰۰ فایل صوتی حاوی موسیقی، جلوه‌های صوتی و استم‌های تک‌ساز، به همراه توضیحات متنی مربوطه است. به تمام هنرمندان AudioSparx این امکان داده شده است که از آموزش مدل Stable Audio انصراف دهند.

برای محافظت از حق تکثیر سازندگان، برای آپلودهای صوتی، کمپانی stability ai با Audible Magic همکاری می‌کند تا از فناوری تشخیص محتوای آن‌ها (ACR) برای قدرت بخشیدن به مطابقت محتوای لحظه‌ای به منظور جلوگیری از نقض حق تکثیر استفاده کنند.

در این مقاله به معرفی هوش مصنوعی stable audio 2.0 و همچنین ویژگی‌های آن پرداختیم. با توجه به امکاناتی که کمپانی stability ai در این هوش مصنوعی قرار داده است، می‌توان آینده آهنگسازی با هوش مصنوعی را نیز روشن دید و از آن برای ساخت آهنگ‌های حداکثر 3 دقیقه‌ای برای یوتیوب، تیک‌تاک، اینستاگرام، تیزر، اینترو و… استفاده کرد، حتی هنرمندان و آهنگ‌سازان نیز می‌توانند از این ابزار برای گرفتن ایده، استفاده کنند.

امتیاز: 5 از ۵ - تعداد رای: 1