MP3是如何騙過你耳朵的？

從愛迪生髮明留聲機開始，人類保存和傳播聲音的歷史已經有 140 多年。但在最近的 20 年裡，一種音頻格式的誕生卻改變了人們的音樂體驗。那就是 MP3 。作為世界上應用最為廣泛的音頻格式，MP3 的誕生第一次讓音樂成為一種人人可以觸及的大眾消費品。

應該有不少小夥伴擁有的第一個音樂播放器，就是 MP3 Player 吧，甚至在當年，大家都默認 MP3 就是音樂的代名詞。

但同樣是數字音頻， MP3 只有標準 CD 大小的十二分之一，而對於人耳來說，這兩者的區別，有，但要比圖片壓縮之類的要難以察覺的多了，所以它對音樂做了什麼? 又丟掉了什麼呢？

大家好我是差評君，今天跟大家聊聊你最常見到的音頻格式——MP3。

MP3 到底丟失了什麼？

壓縮前後的區別是什麼？

如果我們想減少一個文件的體積，最直接的方法就是壓縮。

通常我們理解的壓縮，都是重複壓縮。比如你去超市買 5 瓶可口可樂，小票上不會寫 5 次可樂，只用寫“ 可口可樂*5 ”就行了。這個過程就相當於把文件里重複的部分用更短的字節編碼。文件本身不會丟失數據，解碼后也不會損耗任何信息，只是讓文件體積變小了。

這是一種無損壓損，實際上 MP3 的最後一步就是這麼乾的，它用一種叫 Huffman Coding 的算法來完成。但如果只用這種算法，MP3的體積並不會顯著縮小。

因為聲音本身是一種極其混亂，信息熵非常高的數據。所以這種方式不可能讓它縮小到 CD 體積的 10 % 。

那既然無損壓縮這條路走不通了，乾脆就丟掉一些信息好了。

那 MP3 到底丟了哪些聲音呢？

我們要想知道答案，最簡單的方式就是對比。

我們把同一段聲音的 MP3 和它的無損版本並列在兩條軌道上，把其中一軌反相，那如果它倆的聲音是一樣的，就會互相抵消，我們就應該得到一個靜音效果。這也是降噪耳機的工作原理。

但因為 MP3 是有損壓縮，但只有這樣我們還說不出 MP3 和無損的區別。如果一段音樂就是在 MP3 和無損之間不斷切換的，你真的能區分的出來嗎？我相信你是聽不出來的。

這就是 MP3 算法的神奇之處，它的壓縮並不是簡單的丟掉聲音數據，而是在丟掉數據的同時，你卻察覺不到。

MP3誕生史

Brandenburg 和 Dieter Seitzer 的故事

70 年代末，有一個叫迪特·塞策（ Dieter Seitzer ）的德國教授突然冒出個超前的想法。他想讓大家可以坐在家裡，用 ISDN 的電話線，打電話來點播音樂，就跟點唱機差不多。

ISDN 是當時流行的數字線路，也叫“ 一線通 ”，你可以用它打電話、收發傳真之類的，但它的速率只有128kbps 。

所以當迪特把這個想法申報專利的時候，專利局的工作人員告訴他這事兒沒戲。除非你能讓 ISDN 的網絡速率提高十二倍，那才夠傳輸 CD 的數據量。

迪特一聽，提網速這事兒估計自己幹不了，但如果發明出一種只有 CD 1/12 大小的音頻格式，不就可以搞這個“ 數字點唱機 ”了嗎。於是他轉頭把這個發明工作交給了自己一個叫 Karlheinz Brandenburg 的學生。

Brandenburg 的碩士論文研究方向是一個叫 ATC 的語音壓縮算法，迪特也是看中了這點才找到他的。但 Brandenburg 接到這個任務的時候也很鬱悶。

心想 tnnd 你一個教授都做不出來，我小小一博士生怎麼做的出來，但導師交待的任務又不能不完成，所以他就打算用幾年的時間來證明這事兒不可能，然後論文一寫，把博士學位混到手算球！而就在他證明“ 不可能發明一個比 CD 小 12倍的音頻文件 ”的過程中，他卻發現，哎，這事還真是有可能的。

心理聲學與MP3

讓 Brandenburg 覺得這事兒有戲的關鍵，是一個極其冷門的學科，叫心理聲學（ Psychoacoustics ）。

這是一門心理物理學的分支研究，最早源於人們對音樂和樂器的探索，後來成為了研究人的生理感官和客觀聲音世界之間關係的學科。聽起來很複雜，其實很好理解，比如人耳的聲音定位，聽力範圍這類研究，都屬於心理聲學的範疇。

在心理聲學里有一個非常經典的研究，就是等響曲線。這個曲線告訴我們，人耳對於不同頻率的聲音，感知相差極大。人類的聽覺範圍在 20-20000Hz 之間，而在這個範圍里的不同頻率下，我們聽到的響度是不一樣的。

低頻的聲音需要更大的聲壓才能和中頻較小的聲壓，所形成的聲音大小聽起來相等。

就比如貝斯就需要更大的音量，才能跟吉他聲聽起來差不多大。這也是為什麼貝斯這類低音樂器的音箱要比其他音箱的體積大得多。

而圖中的最低點出現在 3000Hz 左右，所以說明人對這個頻率的聲音最敏感，只需要比較小的聲壓就能聽到。比如我們聽到的大部分的警報聲，基頻都在 1000-3000Hz ，這樣人耳才能更容易捕捉這些聲音，從而避免危險。

有意思的是，隨着年齡增大，我們對於聲音的接收範圍也在變小，大多數成年人聽不到頻率在 16000Hz 以上的聲音。

沿着這個方向，等響曲線的發現者又研究出了一個更加神奇的事情，讓我們意識到我們的感官和客觀到底差距有多麼巨大。

這個東西，就是“ 掩蔽 ”（ Masking ）。

聲音掩蔽 Sound Masking

1958 年的某天下午，一個叫 Licklider 的心理學家去看牙醫，他跟醫生說，我不需要打麻藥。然後掏出了一副耳機，開始聽震耳欲聾的音樂。在巨大的音樂聲中，牙醫幫他搞定了三顆齲齒，而他就像被打了麻醉劑一樣，竟然沒有感覺到疼。

Licklider 把這項技術命名為 Audiac ，之後他帶着這玩意和牙醫一起巡診拔牙，還幫助了不少婦女緩解了分娩時的疼痛。

Audiac 用了一種強烈的聽覺刺激來抑制疼痛，這就是一種跨感官的掩蔽效果。

在聽覺系統中，一種聲音也會被另一種同時發出的聲音所掩蓋。比如在一個樂隊里，往往是吉他聲在 C 位，但如果突然有相似頻率的樂器加入，比如小號。那吉他的聲音就會被短暫的淹沒。這一過程叫作同頻掩蔽。

我們用一個動畫來舉例子，當一個頻率從低到高的噪音經過一個正弦音的時候，這個聲音會被噪音掩蓋。

再比如你上課的時候，想用一聲咳嗽來掩蓋自己放屁的聲音，那你最好要滿足三個條件，一是咳嗽聲的時長大於等於屁聲，二是咳嗽聲的響度要大於等於屁聲。三是要保證二者的頻率接近。這三個條件都滿足，才是一次出色的掩蔽。

那這和 MP3 有什麼關係呢？MP3 的算法就是利用了人耳的這種特性，將歌曲中不同頻率里被淹沒的聲音瞬間，給丟掉了。這樣就可以在減少文件體積的條件下，最小程度的損失音質。

時間掩蔽 temporal masking

但這還不夠。

當我們聽到一個噪音戛然而止的之後，實際上會有一個 100-200ms 的逐漸減弱的掩蔽效果。在噪音完全停止后的這段時間裡，比他更小的聲音會被掩蔽，我們是完全聽不見的，就像我們的耳朵需要 200ms 的時間回復知覺一樣。

不光如此，噪音還會掩蔽在它之前的聲音，雖然只有 50ms，但對於感官來說已經是相當長的一段時間了，這意味着我們的大腦需要 50ms 的緩衝才能報告到意識里。

而這個前後過程，就叫作時間掩蔽。

MP3 壓縮算法的核心，就是利用一個精心迭代了許多年的人體聽覺心理學模型，把音樂里的每一個瞬間對應在 MP3 文件格式里的每一幀（ FRAME ），檢查這個幀內，上述兩種掩蔽作用所發生的頻率和時間段，把那些被掩蓋的，我們聽不到的音頻信息統統丟掉。

這個過程並不單純是精確地，機械式地判斷，它的底色其實是感官上的把控。

在 MP3 算法測試初期，測試人員需要在海量的歌曲中找出 MP3 壓縮算法的問題。它們要在各種歌曲的 MP3 和無損版本之間對比，而且每聽一首歌他們都要評級，一共有四個等級，分別是：聽不出區別、有一點區別、有點難聽和非常難聽。特別是最後兩個選項，可以說是非常主觀的判斷了。

這意味着 MP3 算法的發明和改進，實際上把人的主觀評判作為考量的目標之一。我們不能說這種算法是完全主觀的，它也不是絕對客觀的，所以它的效果也不可能在所有歌曲中都是平均的。

Vega和音頻編碼標準之戰

說到這，就不得不提 MP3 發明過程中的一個小故事。在 MP3 壓縮算法測試的最後階段曾遇到過一個大難題，當時 Brandenburg 和他的同事們覺得自己的算法已經非常牛逼了，幾乎在所有的雙盲測試中都很難聽出區別。

有天他無意中看到雜誌上說大家喜歡用 Suzanne Vega 的歌曲 Tom’s Diner 來測試自己的音箱，而他正好在弗勞恩霍夫實驗室（ Fraunhofer ）看到了這張 CD ,於是他就把這首歌上傳到了電腦上。

這首歌非常簡單，是一個純人聲，沒有伴奏的歌曲。但當他通過 MP3 的壓縮算法處理這首歌之後，卻得到這樣一個效果。

在 MP3 較低的比特率下，Vega 的聲音變得沙啞，不自然。於是在之後的一年時間裡，研發團隊又對 MP3 算法做了幾千次的微小調整， Brandenburg 說自己至少聽了三千遍這首歌，可能比地球上任何人聽得次數都多。

最後他們成功壓縮了這首 Tom’s Diner ，也通過這首歌，真正完善了 MP3 的壓縮算法。

許多年之後，Brandenburg 真的遇到了 Vega ，而且還現場聽她唱了那首Tom’s Diner。儘管已經聽了無數遍，但他說，這首歌依然很好聽。

Brandenburg 終於在 1989 年發表了他的論文。下一步就是將這項技術推向世界。也就是在 90 年代初，業界突然出現好幾種新興技術，它們正在尋找一種新的音頻編碼標準來使用，這其中包括我們熟悉的“ CD-ROM ”和“ DVD ”。

於是他和他的團隊向動態影像專家組（ MPEG ）提交了參賽作品，他們要和另外 13 個團隊競爭新的音頻編碼標準。而最大的競爭對手來自一個名為 MUSICAM 的組織，這個組織的背後是飛利浦，當時飛利浦手握 CD 光盤的專利，可以說是如日中天。

所以儘管他們團隊的技術數據量更小，音質也更強，但最後還是輸給了 MUSICAM 。

因為MUSICAM 的算法需要的處理能力更少。在當時處理器普遍不太行的時代，確實更有優勢。

因此在當年，MP3 是一個妥妥的失敗品。連它的發明者也已經開始着手研究新的音頻編碼。MP3 就這樣被扔進了歷史的垃圾堆里。

直到 90 年代中期，兩種革命性技術的誕生，讓 MP3 這顆棄子重新活了過來，那就是萬維網和 Windows 95。

一個同樣來自德國的研發團隊，開發了一種用於 MP3 的軟件播放器，並且發布在了 Windows 系統上。

當時，1 GB 大小的硬盤剛剛開始普及，存儲空間非常珍貴，反而處理器有了巨大的提升。所以體積更小的 MP3 慢慢被大家接受，也意外的成為了新的音頻編碼標準。1995年7月14日是 MP3 的生日，Karlheinz Brandenburg 和他在弗勞恩霍夫研究所的同事們（ Fraunhofer ）決定把這個壓縮算法的文件擴展名，根據行業標準的全稱 MPEG-2 Audio Layer III ，命名為 .MP3。

到了 90 年代後期，“ MP3 ”取代“ SEX ”成為搜索引擎上查詢最多的詞。某次 Brandenburg 在香港出差時，看到櫥窗里擺着 30 種不同品牌的 MP3 播放器，他心想，“ 好吧，我們終於贏了。”