欧美日韩中文字幕一区二区高清,青青草原综合久久大伊人精品价格

天天快報(bào)!Meta 開(kāi)源 MusicGen 模型：用 AI 將文本和旋律結(jié)合創(chuàng)造全新音樂(lè)作品

2023-06-12 17:45:56 來(lái)源：站長(zhǎng)之家

編程客棧() 6月12日消息:Meta 的 MusicGen 可以根據(jù)文本提示生成短小的新音樂(lè)片段，并可選擇與現(xiàn)有旋律對(duì)齊。

與今天的大多數(shù)語(yǔ)言模型一樣，MusicGen 基于 Transformer 模型。就像語(yǔ)言模型預(yù)測(cè)句子中的下一個(gè)字符一樣，MusicGen 預(yù)測(cè)音樂(lè)作品中的下一個(gè)部分。

(資料圖片僅供參考)

研究人員使用 Meta 的 EnCodec 音頻標(biāo)記器將音頻數(shù)據(jù)分解為較小的組件。作為一個(gè)單階段模android型，它可以并行處理標(biāo)記，因此 MusicGen 速度快且高效。

該團(tuán)隊(duì)使用了 20,000 小時(shí)的授權(quán)音樂(lè)進(jìn)行訓(xùn)練。特別的是，他們依賴于一組內(nèi)部的 10,000 首高質(zhì)量音樂(lè)曲目的數(shù)據(jù)集，以及來(lái)自 Shutterstock 和 Pond5 的音樂(lè)數(shù)據(jù)。

MusicGen 可以處理文本和音樂(lè)提示

除PfmbdFce了架構(gòu)的效率和生成速度外，MusicGen 在能夠處理文本和音樂(lè)提示方面也是獨(dú)特的。文本設(shè)置了基本風(fēng)格，然后與音頻文件中的旋律匹配。

例如，如果將文本提示「一個(gè)輕快愉快的 EDM 音軌，帶有交響鼓、輕柔墊音和強(qiáng)烈情感，速度：130 BPM」與巴赫著名作品《降 D 小調(diào)的觸技曲與賦格曲（BWV 565）》的旋律結(jié)合起來(lái)，將生成以下音樂(lè)作品：

你無(wú)法精確控制與旋律的結(jié)合，例如在不同風(fēng)格中聽(tīng)到旋律。它只作為生成的大致指南，并不完全反映在輸出中。

MusicGen 領(lǐng)先于Google 的 MusicLM

研究的作者對(duì)其模型的三個(gè)不同大小進(jìn)行了測(cè)試：3 億（300M）、15 億（1.5B）和 33 億（3.3B）個(gè)參數(shù)。他們發(fā)現(xiàn)更大的模型生成的音頻質(zhì)量更編程客棧高，但人們?cè)u(píng)價(jià)最好的是 15 億參數(shù)模型。另一方面，33 億參數(shù)模型更擅長(zhǎng)準(zhǔn)確匹配文本輸入和音頻輸出。

與其他音樂(lè)模型（如 Riffusion、Mousai、MusicLM 和 Noise2Music）相比，MusicGen 在客觀和主觀指標(biāo)python上表現(xiàn)更好，這些指標(biāo)測(cè)試音樂(lè)與歌詞的匹配程度以android及作曲的可信度?？傮w而言，這些模型略高于Google 的 MusicLM 水平。

Meta 已在 github 上發(fā)布了代碼和模型的開(kāi)源版本，并允許商業(yè)使用。在 Huggingface 上提供了演示。

Github 代碼和模型：https://github.com/facebookresearch/audiocraft

Huggingface演示：https://huggingface.co/spaces/facebook/MusicGen

關(guān)鍵詞：

上一篇：易華錄數(shù)據(jù)銀行事業(yè)部總經(jīng)理林鎮(zhèn)陽(yáng)：構(gòu)建多層次、多層級(jí)的數(shù)據(jù)要素市場(chǎng)，支持全國(guó)數(shù)據(jù)要素統(tǒng)一大市場(chǎng)建設(shè)

下一篇：最后一頁(yè)