谷歌推出全能扒譜AI:只要聽一遍歌曲 鋼琴小提琴的樂譜全有了

聽一遍曲子,就能知道樂譜,還能馬上演奏,而且還掌握“十八般樂器”,鋼琴、小提琴、吉他等都不在話下。這就不是人類音樂大師,而是谷歌推出的“多任務多音軌”音樂轉音符模型 MT3。

谷歌推出全能扒譜AI:只要聽一遍歌曲 鋼琴小提琴的樂譜全有了

首先需要解釋一下什麼是多任務多音軌。通常一首曲子是有多種樂器合奏而來,每個樂曲就是一個音軌,而多任務就是同時將不同音軌的樂譜同時還原出來。

事實上,谷歌 MT3 在還原多音軌樂譜這件事上,達到了 SOTA 的結果。谷歌已將該論文投給 ICLR 2022。

還原多音軌樂譜

相比與自動語音識別 (ASR) ,自動音樂轉錄 (AMT) 的難度要大得多,因為後者既要同時轉錄多個樂器,還要保留精細的音高和時間信息。

多音軌的自動音樂轉錄數據集更是“低資源”的。現有的開源音樂轉錄數據集一般只包含一到幾百小時的音頻,相比語音數據集動輒幾千上萬小時的市場,算是很少了。

谷歌推出全能扒譜AI:只要聽一遍歌曲 鋼琴小提琴的樂譜全有了

先前的音樂轉錄主要集中在特定於任務的架構上,針對每個任務的各種樂器量身定製。因此,作者受到低資源 NLP 任務遷移學習的啟發,證明了通用 Transformer 模型可以執行多任務 AMT,並顯著提高了低資源樂器的性能。作者使用單一的通用 Transformer 架構 T5,而且是 T5“小”模型,其中包含大約 6000 萬個參數。

該模型在編碼器和解碼器中使用了一系列標準的 Transformer 自注意力“塊”。為了產生輸出標記序列,該模型使用貪婪自回歸解碼:輸入一個輸入序列,將預測出下一個出現概率最高的輸出標記附加到該序列中,並重複該過程直到結束。

MT3 使用梅爾頻譜圖作為輸入。對於輸出,作者構建了一個受 MIDI 規範啟發的 token 詞彙,稱為“類 MIDI”。

谷歌推出全能扒譜AI:只要聽一遍歌曲 鋼琴小提琴的樂譜全有了

生成的樂譜通過開源軟件 FluidSynth 渲染成音頻。此外,還要解決不同樂曲數據集不平衡和架構不同問題。

作者定義的通用輸出 token 還允許模型同時在多個數據集的混合上進行訓練,類似於用多語言翻譯模型同時訓練幾種語言。這種方法不僅簡化了模型設計和訓練,而且增加了模型可用訓練數據的數量和多樣性。

實際效果

在所有指標和所有數據集上,MT3 始終優於基線。訓練期間的數據集混合,相比單個數據集訓練有很大的性能提升,特別是對於 GuitarSet、MusicNet 和 URMP 等“低資源”數據集。

谷歌推出全能扒譜AI:只要聽一遍歌曲 鋼琴小提琴的樂譜全有了

最近,谷歌團隊也放出了 MT3 的源代碼,並在 Hugging Face 上放出了試玩 Demo。

谷歌推出全能扒譜AI:只要聽一遍歌曲 鋼琴小提琴的樂譜全有了

不過由於轉換音頻需要 GPU 資源,在 Hugging Face 上,建議各位將在 Colab 上運行 Jupyter Notebook。

論文地址:

https://arxiv.org/abs/2111.03017

源代碼:

https://github.com/magenta/mt3

Demo 地址:

https://huggingface.co/spaces/akhaliq/MT3

(0)
上一篇 2022-01-03 14:17
下一篇 2022-01-03 14:17

相关推荐