極客號(Daydx.com)12月19日 消息:字節(jié)跳動AI研究團隊最近推出了一項名為StemGen的音樂生成項目,該項目采用了一種創(chuàng)新的深度學習方法,旨在讓模型能夠模仿現(xiàn)有音樂中的模式和結(jié)構(gòu),并以一種非常前衛(wèi)的方式回應音樂背景。與常用的深度學習技術(shù)(如RNN、LSTM網(wǎng)絡(luò)和Transformer模型)不同,StemGen采用了一種非自回歸、基于Transformer的模型,強調(diào)對音樂背景的聽取和響應,而不是依賴于抽象的條件。
研究中,來自SAMI和字節(jié)跳動公司的研究人員引入了一種非自回歸、基于Transformer的模型,該模型通過利用MusicGen模型的公開可用的Encodec檢查點來監(jiān)聽和響應音樂背景。通過使用標準度量和音樂信息檢索描述符方法,包括Frechet Audio Distance(FAD)和Music Information Retrieval Descriptor Distance(MIRDD),研究團隊評估了模型的性能。結(jié)果顯示,該模型在音頻質(zhì)量和與音樂背景的穩(wěn)健對齊方面表現(xiàn)出競爭性,經(jīng)過客觀度量和主觀MOS測試的驗證。
這項研究強調(diào)了最新在端到端音樂生成方面的進展,借鑒了圖像和語言處理的技術(shù)。它強調(diào)了在音樂創(chuàng)作中對音頻片段進行對齊的挑戰(zhàn),并對現(xiàn)有依賴于抽象條件的模型提出了批評。研究提出了一種訓練范式,使用了一種非自回歸、基于Transformer的架構(gòu),使模型能夠?qū)σ魳繁尘白龀鲰憫?。該方法引入了兩個條件源,并將問題框架構(gòu)建為條件生成。
該方法利用了一種非自回歸、基于Transformer的音樂生成模型,通過在單獨的音頻編碼模型中引入殘差向量量化器。通過將多個音頻通道組合成一個單一的序列元素,采用了嵌套的方法。訓練過程中采用了掩碼程序,并在進行令牌采樣期間使用了無分類器的指導,以增強音頻背景的對齊??陀^度量包括Fr’echet Audio Distance和音樂信息檢索描述符距離等,用于評估模型的性能。
研究團隊通過使用標準度量和音樂信息檢索描述符方法進行生成模型的評估,包括FAD和MIRDD。與真實音頻片段的比較表明,該模型在音頻質(zhì)量上達到了與最先進的文本條件模型相媲美的水平,并展現(xiàn)出與音樂背景的強大音樂連貫性。通過參與音樂培訓的參與者進行的Mean Opinion Score測試進一步驗證了該模型生成逼真音樂結(jié)果的能力。MIRDD對生成和真實音頻片段的分布對齊進行評估,提供了音樂連貫性和對齊的度量。
總的來說,這項研究提出了一種新的訓練方法,使生成模型能夠?qū)σ魳繁尘白龀鲰憫?。該方法引入了一種非自回歸語言模型,具有Transformer骨干和兩個未經(jīng)測試的改進:多源無分類器的指導和迭代解碼過程中的因果偏差。通過在開源和專有數(shù)據(jù)集上進行訓練,這些模型實現(xiàn)了最先進的音頻質(zhì)量。標準度量和音樂信息檢索描述符方法驗證了其音頻質(zhì)量。通過Mean Opinion Score測試確認了該模型生成逼真音樂結(jié)果的能力。
項目網(wǎng)址:https://julian-parker.github.io/stemgen/
論文網(wǎng)址:https://arxiv.org/abs/2312.08723