NVIDIA的最新技術使人工智能的聲音更具表現力和真實感

亞馬遜的Alexa、Google助手和其他人工智能助手的聲音遠遠領先於老式的GPS設備,但它們仍然缺乏節奏、音調和聽上去讓人感覺真實的品質,NVIDIA公司在Interspeech 2021會議上宣布,該公司已經公布了新的技術和工具,可以通過讓你用自己的聲音訓練AI系統來捕捉這些自然的語音品質。

Rafael_002.webp

為了改進其人工智能語音合成,NVIDIA的文本-語音研究團隊開發了一個名為RAD-TTS的模型,這是NAB廣播大會上開發最逼真化身的比賽的獲勝作品。該系統允許個人用自己的聲音訓練文字轉語音模型,包括節奏、音調、音色等等。

RAD-TTS的另一個特點是語音轉換,它可以讓用戶用另一個人的聲音來傳遞一個說話者的話語。該界面可以對合成的聲音的音調、持續時間和能量進行精細的、幀級的控制。

利用這項技術,NVIDIA的研究人員為自己的《我是人工智能》系列視頻創造了更多聽起來像對話的語音解說,使用的是合成的聲音而不是人的聲音。其目的是讓解說詞與視頻的語氣和風格相匹配,這是迄今為止許多人工智能解說視頻中沒有做到的。結果仍然有點像機器人,但比我聽過的任何人工智能解說都好。

“有了這個界面,我們的視頻製作人可以錄下自己閱讀視頻腳本的過程,然後用人工智能模型將他的語音轉換為女解說員的聲音。”NVIDIA公司寫道:”利用這一基線旁白,製作人可以像配音演員一樣指揮人工智能–調整合成的語音以強調特定的詞語,並修改旁白的節奏以更好地表達視頻的基調。”

NVIDIA公司正在分發這項研究的一部分–當然是為了在NVIDIAGPU上有效運行而進行的優化–通過用於GPU加速的對話式人工智能的NVIDIA NeMo Python工具包(可在該公司的容器和其他軟件的NGC中心獲得),向任何想要嘗試的人開放源代碼。其中幾個模型是在NVIDIA DGX系統上用數萬小時的音頻數據訓練出來的。開發人員可以針對他們的使用情況對任何模型進行微調,利用NVIDIA Tensor Core GPU上的混合精度計算加快訓練速度。

(0)
上一篇 2021-08-31 21:47
下一篇 2021-08-31 21:48

相关推荐