九一热线精品视频6_四川少妇XXXX内谢欧美_四虎国产精品永久入口一_越南无码精品_国产亚欧美精品久久久

天天快報(bào)!Meta 開(kāi)源 MusicGen 模型:用 AI 將文本和旋律結(jié)合 創(chuàng)造全新音樂(lè)作品

2023-06-12 17:45:56     來(lái)源:站長(zhǎng)之家

編程客棧() 6月12日消息:Meta 的 MusicGen 可以根據(jù)文本提示生成短小的新音樂(lè)片段,并可選擇與現(xiàn)有旋律對(duì)齊。

與今天的大多數(shù)語(yǔ)言模型一樣,MusicGen 基于 Transformer 模型。就像語(yǔ)言模型預(yù)測(cè)句子中的下一個(gè)字符一樣,MusicGen 預(yù)測(cè)音樂(lè)作品中的下一個(gè)部分。


(資料圖片僅供參考)

研究人員使用 Meta 的 EnCodec 音頻標(biāo)記器將音頻數(shù)據(jù)分解為較小的組件。作為一個(gè)單階段模android型,它可以并行處理標(biāo)記,因此 MusicGen 速度快且高效。

該團(tuán)隊(duì)使用了 20,000 小時(shí)的授權(quán)音樂(lè)進(jìn)行訓(xùn)練。特別的是,他們依賴于一組內(nèi)部的 10,000 首高質(zhì)量音樂(lè)曲目的數(shù)據(jù)集,以及來(lái)自 Shutterstock 和 Pond5 的音樂(lè)數(shù)據(jù)。

MusicGen 可以處理文本和音樂(lè)提示

PfmbdFce了架構(gòu)的效率和生成速度外,MusicGen 在能夠處理文本和音樂(lè)提示方面也是獨(dú)特的。文本設(shè)置了基本風(fēng)格,然后與音頻文件中的旋律匹配。

例如,如果將文本提示「一個(gè)輕快愉快的 EDM 音軌,帶有交響鼓、輕柔墊音和強(qiáng)烈情感,速度:130 BPM」與巴赫著名作品《降 D 小調(diào)的觸技曲與賦格曲(BWV 565)》的旋律結(jié)合起來(lái),將生成以下音樂(lè)作品:

你無(wú)法精確控制與旋律的結(jié)合,例如在不同風(fēng)格中聽(tīng)到旋律。它只作為生成的大致指南,并不完全反映在輸出中。

MusicGen 領(lǐng)先于Google 的 MusicLM

研究的作者對(duì)其模型的三個(gè)不同大小進(jìn)行了測(cè)試:3 億(300M)、15 億(1.5B)和 33 億(3.3B)個(gè)參數(shù)。他們發(fā)現(xiàn)更大的模型生成的音頻質(zhì)量更編程客棧高,但人們?cè)u(píng)價(jià)最好的是 15 億參數(shù)模型。另一方面,33 億參數(shù)模型更擅長(zhǎng)準(zhǔn)確匹配文本輸入和音頻輸出。

與其他音樂(lè)模型(如 Riffusion、Mousai、MusicLM 和 Noise2Music)相比,MusicGen 在客觀和主觀指標(biāo)python上表現(xiàn)更好,這些指標(biāo)測(cè)試音樂(lè)與歌詞的匹配程度以android及作曲的可信度??傮w而言,這些模型略高于Google 的 MusicLM 水平。

Meta 已在 github 上發(fā)布了代碼和模型的開(kāi)源版本,并允許商業(yè)使用。在 Huggingface 上提供了演示。

Github 代碼和模型:https://github.com/facebookresearch/audiocraft

Huggingface演示:https://huggingface.co/spaces/facebook/MusicGen

關(guān)鍵詞:

明星

電影