麻省理工開發計算機模型模擬人腦對聲音方位判斷

人類的大腦經過精細的調整，不僅能識別特定的聲音，而且還能確定聲音來自哪個方向。通過比較到達右耳和左耳的聲音差異，大腦可以估計出狗叫、消防車呼嘯或汽車駛來的位置。麻省理工學院的神經科學家們現在已經開發了一個計算機模型，它也可以執行這一複雜的任務。該模型由幾個卷積神經網絡組成，不僅能像人類一樣完成任務，而且還能以人類的方式進行判斷。

這個模型可以在現實世界中實際定位聲音，而當研究人員把這個模型當作人類的實驗參與者，並模擬過去對人類進行的實驗時，研究人員一次又一次地發現，這個模型再現了在人類身上看到的結果。這項新研究的發現還表明，人類感知位置的能力是適應我們環境具體挑戰的。該論文於2022年1月27日發表在《自然-人類行為》上。

當我們聽到火車鳴笛等聲音時，聲波到達我們左右耳朵的時間和強度略有不同，這取決於聲音來自哪個方向。中腦的一部分專門用來比較這些微小的差異，以幫助估計聲音來自哪個方向，這項任務也被稱為定位。在現實世界的條件下，這項任務變得明顯更加困難，環境會產生回聲，同時會聽到許多聲音。

科學家們長期以來一直在尋求建立計算機模型，以執行與大腦用來定位聲音的那種計算方法。這些模型有時在沒有背景噪音的理想化環境中能很好地工作，但在有噪音和回聲的真實世界環境中卻從未成功。為了開發一個更複雜的定位模型，麻省理工學院的團隊轉向了卷積神經網絡。這種計算機建模已被廣泛用於人類視覺系統建模。為了訓練這些模型，研究人員創建了一個虛擬世界，他們可以在其中控制房間的大小和房間牆壁的反射特性。所有輸入模型的聲音都來自於這些虛擬房間中的某個地方。這套400多個訓練聲音包括人類的聲音、動物的聲音、機器的聲音，如汽車引擎，以及自然的聲音，如雷聲。

卷積神經網絡可以設計成許多不同的架構，所以為了幫助他們找到對定位最有效的網絡，麻省理工學院的團隊使用了一台超級計算機，讓他們訓練和測試大約1500個不同的模型。這一搜索確定了10個似乎最適合定位的模型，研究人員進一步訓練了這些模型，並將其用於所有後續研究。研究人員還確保該模型從人類耳朵提供的相同信息開始。外耳，即耳廓，有許多褶皺可以反射聲音，改變進入耳朵的頻率，而這些反射會根據聲音的來源而變化。研究人員通過在每個聲音進入計算機模型之前通過一個專門的數學函數來模擬這種效果。

訓練完模型后，研究人員在真實世界的環境中對它們進行了測試。他們將一個耳朵上有麥克風的人體模型放在一個實際的房間里，播放來自不同方向的聲音，然後將這些錄音輸入模型。當被要求對這些聲音進行定位時，這些模型的表現與人類非常相似。儘管模型是在虛擬世界中訓練的，但當我們評估它時，它可以在現實世界中定位聲音。