能聽懂口音的開源語音系統來了：OpenAI出品支持99種語言

2022-09-24 19:41 • 熱點資訊

逼近人類水平的語音識別系統來了？沒錯，OpenAI新開源了一個名為「Whisper」的新語音識別系統，據稱在英文語音識別方面擁有接近人類水平的魯棒性和準確性！不僅如此，對於不同口音、專業術語的識別效果也是杠杠的！一經發布就在推特上收穫4800+點贊，1000+轉發。

網友們紛紛對它意料之外的強大功能表示驚訝。

不僅是英文，有人用法國詩人波德萊爾的《惡之花》進行了語音測試，得到的文本幾乎與原文一致。

OpenAI聯合創始人&首席科學家Ilya Sutskever就表示：

終於有一個靠譜的語音識別系統能聽懂我的口音了。

前任特斯拉人工智能總監Andrej Karpathy甚至轉發評論：OpenAI正處於最好的狀態中。

話不多說，讓我們看看這個被“好評如潮”的語音系統究竟是怎麼回事。

逼近人類水平的語音識別系統

首先，Whisper最大特點是它使用的超大規模訓練集：

它使用從網絡上收集的68萬小時的多語言、多任務監督數據進行訓練。

這導致數據集的內容非常多元化，涵蓋了許多不同環境、不同錄音設備下、不同語言的音頻。

具體而言，65%(438218小時)是英語音頻和匹配的英語文本，大約18%(125739小時)是非英語音頻和英語文本，而最後17%(117113小時)則是非英語音頻和相應的文本。

其中，非英語部分共包含98種不同語言。

不過，雖然音頻質量的多樣性可以幫助提高訓練模型的魯棒性，但轉錄文本質量的多樣性並不是同樣有益的。

初步檢查顯示，原始數據集中有大量不合格的、現有自動語音識別(ASR)系統生成的轉錄文本。

而以往的研究表明，在人工和機器混合生成的數據集上進行訓練，會顯著損害翻譯系統的性能。

為了解決這個問題，研究團隊開發了幾種自動過濾方法來識別和刪除低質量的數據源。

但值得一提的是，沒有說話內容的片段會被留下，作為語音活動檢測的訓練數據。

其次，Whisper體系結構是一種簡單的端到端方法，具體來說就是Transformer的編碼器-解碼器格式。

輸入音頻被分成30秒的片段，再轉換成log-Mel譜圖，然後傳入編碼器。

解碼器被訓練來預測相應的文本標題，並混合特殊標記，指示單一模型執行諸如語言識別、多語言語音轉錄和英語語音翻譯等任務。

除此之外，研究人員還為Whisper設置了5種不同的型號，以下是各模型大致的內存需求和相對速度，使用者可以自行選擇。

但需要注意的是，只有“large”型號支持多語言，前4個模型都只支持英語。

不過不需要擔心，與其他模型相比，英文語音識別正是Whisper的核心競爭力。

實驗結果證明，Whisper在Librispeech test-clean測試的錯誤率達到2.7%。

雖然這一數值與Wav2vec 2.0一樣，但在零樣本性能上，Whisper明顯更穩健，平均誤差減少了55%。

甚至零樣本Whisper模型還縮小了與人類魯棒性之間的差距。

可以看出，與人類Alec相比，LibriSpeech模型的錯誤率大約是人類的兩倍，而Whisper模型的魯棒性邊界則包括Alec95%的置信區間。

研究團隊

Whisper的研究團隊來自OpenAI，共同一作有兩位：Alec Radford、Jong Wook Kim。

Alec Radford，OpenAI的機器學習研究員，也是indico.io的聯合創始人。

Jong Wook Kim，在紐約大學獲得了音樂技術專業的博士學位，研究方向包括多模態深度學習和音樂理解，目前是OpenAI的研究人員。

值得一提的是，研究團隊指出，雖然目前Whisper還沒有實時功能，但它的運行速度和內存大小表明，在這一基礎上搭建實時語音識別和翻譯功能是可行的。

他們希望Whisper的高精度和易用性，將允許開發人員將語音接口添加到更廣泛的應用程序中。

論文和GitHub鏈接附在文末，感興趣的小夥伴們可以自取～

論文鏈接：

https://cdn.openai.com/papers/whisper.pdf

GitHub鏈接：

https://github.com/openai/whisper#approach

參考鏈接：

[1]https://colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb

[2]https://techcrunch.com/2022/09/21/openai-open-sources-whisper-a-multilingual-speech-recognition-system/?guccounter

[3]https://news.ycombinator.com/item?id=32927360

[4]https://twitter.com/alecrad

[5]https://jongwook.kim/

openai 語音識別系統

赞 (0)

我國新能源汽車出口爆發：特斯拉佔比超1/3

上一篇 2022-09-24 19:40

國產手機高端化突圍，消費者願意買單嗎？

下一篇 2022-09-24 20:41

熱點資訊

Google Messages將引入語音轉錄功能 RCS信息反應支持完整Emoji

國外科技媒體 9to5Google 在最新一期 APK Insight 活動中，對新版 Google Messages 進行了逆向編譯，發現了一些尚未完成的一些新功能。無論你是發送…

2022-09-16
熱點資訊

Ubuntu正為AMD Xilinx Kria KR260帶來GNOME Wayland支持

以增強上游 GNOME 桌面堆棧來改善 Ubuntu 體驗而被大家所熟知的 Canonical 工程師 Daniel van Vugt，最近對 AMD-Xilinx Kria KR…

2022-07-19
熱點資訊

售價40美元的《Open Circuits》新書帶你領略電子器件的別樣之美

No Starch Press 是一家專註於計算機圖書的出版社，而本文要為大家介紹的，就是一本名叫《Open Circuits》的新書。如果你想要惡補下趣味的電路知識，《Open …

2022-06-01
熱點資訊

研究：將藻類蛋白質包裹在液滴中可使人工光合作用的效率提高三倍

據外媒New Atlas報道，“重現”光合作用的過程，即植物自然地將陽光、水和二氧化碳轉化為化學能，為其生存提供動力，是可再生能源研究的一個關鍵目標，而新加坡南洋理工大學的一項新研…

2021-10-19
熱點資訊

Facebook吹哨人：歐盟數字服務法案有望成為全球黃金標準

北京時間11月9日上午消息，當地時間周一，Facebook（現改名Meta）前員工弗朗西斯·豪根（Frances Haugen）在歐洲議會參加聽證會時表示，歐洲已經制定草案，要求科…

2021-11-09
熱點資訊

諾斯羅普·格魯曼公司領導的團隊正設計用於月球表面的宇航員運輸工具

據TechCrunch報道，諾斯羅普·格魯曼公司正在領導一個包括AVL公司、Intuitive Machines公司、Lunar Outpost公司和米其林公司在內的團隊，設計一種…

2021-11-17
熱點資訊

現代公司概述其氫能航空計劃包括區域性垂直起降電動飛機

現代公司已經非常清楚地表明，它將在下一代電動航空領域大展拳腳，去年年底成立了自己的eVTOL子公司Supernal，並承諾將發揮其汽車級的製造能力，大量製造航空出租車。現在，該公司…

2022-04-04
熱點資訊

The Exploration Company正在開發一種全新的可重複利用軌道航天器

Hélène Huby在最近的一次採訪中表示，歐洲的太空領域比美國的太空領域晚了約5到10年。她當然有資格做出這樣的評估。Huby的大部分職業生涯是在歐洲的航空航天公司空客公司度過…

2022-07-29
熱點資訊

90 歲最年長太空人的飛天感悟：漆黑的宇宙就像看到了死亡

90 歲高齡的男演員威廉·夏特納 (William Shatner) 周三搭乘藍色起源的“新謝潑德號”火箭進入太空，成為最年長的航天員。這次旅行，讓他對生與死有了新的感悟。夏特納曾…

2021-10-14
熱點資訊

群聯收購合資子公司Nextorage股份增強高端定製存儲市場競爭力

為滿足市場對下一代高端定製存儲產品的旺盛需求，NAND 主控領導者之一的群聯電子（Phison），剛剛從索尼存儲媒體解決方案公司（簡稱 SSMS）手中，收購了雙方合資成立的 Nex…

2022-01-06