[視頻]微軟語音合成技術升級編碼器效果以假亂真

微軟日前發布新一代深度神經網絡HiFiNet聲碼器，與微軟上一代語音技術相比，由HiFiNet聲碼器合成的神經網絡版聲音質量再創新高，主要體現在發音更準確、韻律更自然、高保真效果更完美，更受客戶青睞。自推出以來，被廣泛應用到有聲讀物、在線教育、車載語音助手等領域。

HiFiNet是微軟神經網絡版語音合成技術中最新的聲音編碼器，是決定音頻質量的關鍵因素。根據行業公認的、專業評估語音自然度的MOS測試結果顯示，由HiFiNet聲碼器合成的語音音質可與用於訓練的真人錄音樣本相媲美，並同時改善毛刺、噪音等音頻質量問題，輸出的音質具備更高保真度，更大程度還原真人錄音。

與微軟上一代聲碼器相比，微軟HiFiNet聲碼器合成的音質更高（見演示視頻第1、2段聲音）。

語音質量的優劣會直接影響收聽者的感受，為提升用戶收聽的舒適度，在Azure語音合成系統中，神經網絡聲學模型基於深度學習網絡，使用真人錄音作為原始數據進行迭代訓練。首先，提取真人錄音的聲學特徵。然後，利用真人錄音的聲學特徵自動生成兩組音頻：一組真實聲波（原始錄音）和一組偽波（合成聲波）。最後，由鑒別器區分真實聲波和偽波。隨着訓練次數的增多，聲波生成器也會愈發“聰明”，直至生成鑒別器也無法區分的偽波，這意味着機器合成的聲音已經和原始錄音相差無幾，從而給用戶帶來更貼近自然的體驗。

由微軟HiFiNet聲碼器合成的音頻質量更接近真人原始錄音（見演示視頻第3、4段聲音）

HiFiNet聲碼器訓練示意圖

採樣率越高，聲音還原越真實。Azure神經網絡版語音合成聲學模型默認每秒鐘採樣24,000次（24千赫茲），為還原特殊場景中更為複雜、細微的聲音內容，HiFiNet聲碼器每秒鐘採樣48,000次（48千赫茲），滿足用戶對語音質量的嚴格要求，讓用戶盡享高清語音體驗。

音頻採樣頻率與保真度對比示意圖

除語音質量外，HiFiNet合成速度較之其他模型也有顯著的提升，進一步提升了語音合成的實時率。據RTF（Real Time Factor，實時率，用來測量語音合成速度的工具）測試結果顯示，HiFiNet在GPU設備上運行的速度是第一代高性能聲碼器的3倍，在CPU設備上運行的速度是第一代高性能聲碼器的2倍。

目前，內置HiFiNet聲碼器的Azure認知服務神經網絡版語音合成服務已支持超過70多個國家和地區的語言，提供超過170個自然逼真的音色供開發者選擇。

欲了解有關HiFiNet及語音合成的更多內容，請點擊：關於HiFiNet、關於語音合成試用版、更多資料以及示例代碼。

相關文章:

微軟語音識別出錯率達5.1%創新低比肩專業速錄員

微軟AI天團全新治癒美女成員上線：虛擬形象酷似孫燕姿

微軟AI語音新技能：玩轉情感程度調節