AudioCraft отваря врата за генерирани от AI аудио и музика

Представете си безкрайните възможности за творчество за музиканти и създатели на съдържание, когато могат да генерират аудио и музика чрез задание под формата на текст. Новото издание на Meta, AudioCraft, предвещава обещаващо бъдеще, в което висококачественият звук не изисква сложно оборудване или дори използването на музикален инструмент.

ai audio

Този новаторски AI инструмент се състои от три модела: MusicGen, AudioGen и EnCodec – и трите имат за цел създаването на звук да стане достъпно и иновативно за всеки човек. По-долу ще се потопим във функциите и потенциала, които има AudioCraft.

С AudioCraft Meta има за цел да демократизира генерирането на аудио и музика. Всеки от трите модела на инструмента служи за уникална цел:

MusicGen: Използвайки притежавана от Meta и специално лицензирана музика, този модел превежда текстови подкани в музика. Няколко реда текст вече могат да се превърнат в музикална композиция.

AudioGen: Обучен на обществени звукови ефекти, AudioGen създава реалистично аудио като лай на куче или стъпки по дървен под от текст.

EnCodec: Най-новото подобрение в този декодер позволява генериране на музика с по-високо качество.

Заедно тези модели предлагат на създателите гъвкавостта да изследват нови композиции, да добавят саундтраци към видеоклипове и да създават звуков пейзаж, който преди изискваше време, оборудване и сложно техническо ноу-хау.

Отваряне на врати за иновации

В ход, който насърчава експериментирането и растежа в рамките на AI общността, Meta предоставя моделите AudioCraft с отворен код. Изследователите и практиците вече могат да обучават моделите си, използвайки техните набори от данни, усъвършенствайки генерираното от AI аудио и музика. Този подход с отворен код може да насърчи сътрудничеството и да доведе до нови открития и иновации в областта.

Докато изкуственият интелект играе важна роля в генерирането на изображения, видео и текст, аудиото донякъде изостава. Сложността на генерирането на аудио с висока прецизност го остави недостъпен за мнозина. Надеждите са, че AudioCraft ще успее да преодолее тази празнина, като опрости дизайна на генеративни модели за аудио.

Музиката често се смята за най-предизвикателния тип аудио за генериране, но семейството от модели на AudioCraft го прави задачата да изглежда по-лесно изпълнима. Тези модели поддържат дългосрочна последователност, като същевременно произвеждат висококачествен звук. Освен това, поради лесното надграждане и повторно използване на AudioCraft, разработчиците, целящи да създадат по-добри звукови или музикални генератори, могат да работят в рамките на една и съща кодова база и да подобрят това, което другите са направили.

„Семейството от модели AudioCraft е в състояние да произвежда висококачествено аудио с дългосрочна последователност и може лесно да се взаимодейства с него чрез естествен интерфейс. С AudioCraft ние опростяваме цялостния дизайн на генеративните модели за аудио в сравнение с предишната работа в полето – давайки на хората пълната рецепта да играят със съществуващите модели, които Meta разработва през последните няколко години, като същевременно им даваме възможност да надхвърлят границите и разработват свои собствени модели“ – казват създателите.

Какъв е подходът за генериране на аудио?

Генерирането на аудио от необработени аудио сигнали е предизвикателство, тъй като изисква моделиране на изключително дълги поредици. Типична музикална песен от няколко минути, семплирана при 44,1 kHz (което е стандартното качество на музикалните записи) се състои от милиони времеви стъпки. За сравнение, текстови генеративни модели като Llama и Llama 2 се захранват с текст, обработен като поддуми, които представляват само няколко хиляди времеви стъпки на проба.

За да се справи с това предизвикателство, отделни аудио токени „се учат“ от необработения сигнал с помощта на невронния аудио кодек EnCodec , който дава нов „речник“ за музикални семпли. След това можем да обучим авторегресивни езикови модели върху тези отделни аудио токени, за да генерираме нови токени и нови звуци и музика, когато конвертираме токените обратно в аудио пространството с декодера на EnCodec.

AudioCraft

Нова ера на звуковия дизайн

AudioCraft meta

Последствията от AudioCraft се простират отвъд простото удобство. Инструментът има потенциала да предефинира начина, по който създаваме и слушаме аудио и музика. Точно както синтезаторите отвориха нови музикални сфери, MusicGen може да се превърне в нов вид инструмент. Музикантите и звуковите дизайнери могат да използват AudioCraft като източник на вдъхновение, бързо повтаряйки композиции по новаторски начини.

Вълнението около AudioCraft не се дължи само на технологията. Може да се окаже, че по-важен е потенциалът за творчество и сътрудничество, който се отключва. Предоставяйки на всеки достъп до висококачествен звук и възможност за генериране на музика, Meta не само напредва в областта на аудиото, генерирано от AI, но дава и вдъхновение на една нова вълна от творци.

AudioCraft представлява значителна стъпка в интегрирането на AI в аудио индустрията. Със своите многостранни модели и наличност с отворен код, той предлага платформа за голяма креативност и иновации. От професионални музиканти до собственици на малък бизнес, обещанието на AudioCraft да опрости и обогати създаването на звук е съпътствано с очаквания.

 

www.infoz.bg  www.infoz.bg

Теми: