MIT最新研究：AlphaFold蛋白質預測能力太差目前利用價值還很低

2018 年，Deepmind 首次發布基於深度神經網絡的蛋白質結構預測數據庫
AlphaFold，在蛋白質預測中實現了最先進的性能；去年，AlphaFold 2 獲得了 98.5%
的蛋白質預測率；前段時間，Deepmind 又重磅發布了數據集更新，稱目前的 AlphaFold 已經預測了幾乎所有已知的蛋白質。

作者 | 李梅、黃楠

編輯 | 陳彩嫻

如何有效識別藥物作用機制在今天仍然是一個巨大挑戰，計算對接的方法已被廣泛用於預測藥物結合靶點。有了大規模蛋白質結構預測技術，藥物發現將變得更容易。所以，自 AlphaFold 問世以來，稱其將引發一場結構生物學的革命、徹底改變藥物發現的聲音就不絕於耳。

本質上，AlphaFold 是一個工具，我們目前真的能利用好這個工具嗎？

近日，來自 MIT 的研究團隊給出了否定的回答。

他們對使用 AlphaFold2 的分子對接模擬的模型性能進行了評估，發現模型在識別真正的蛋白質-配體相互作用方面的預測能力較弱，並證明需要使用基於機器學習的方法進行建模來提高模型性能，以更好地利用AlphaFold2 進行藥物發現。該論文“Benchmarking AlphaFold-enabled molecular docking predictions for antibiotic discovery”發表在了Molecular Systems Biology 期刊上。

論文地址：https://www.embopress.org/doi/epdf/10.15252/msb.202211081

使用 AlphaFold 2

預測的分子對接

所謂化合物的對接計算，是將候選化合物列表中的每一個對接到目標蛋白質中，生成最有可能結合的化合物的粗略排序。這個過程可以在化合物集合上完成，獲得龐大的虛擬庫，這種虛擬篩選已經成為計算化學領域的長期目標。

篩選 218 種大腸桿菌活性化合物

研究團隊首先篩選了一組化合物，包含大約 39128 種，其中包括已知藥物（已知抗生素）、活性天然產物和一系列其他不同結構，並在針對大腸桿菌的篩選中發現了 218 種化合物培養物。

僅僅有 218 個陽性，這個結果是令人驚訝的，但考慮到抗菌藥物發現工作的難度，這個數字也算比較難得了。

在 218 種活性化合物中，有大約 80% 是已知抗生素類別中的成員，剩下的部分則是已知細胞毒性化合物和一些新的通配類型的混合。這為實驗的進行提供了一個很好的背景，因為在大多數情況下，我們可以預測從反向對接篩選中獲得什麼結果。

將活性化合物與預測的蛋白質結構對接

接着，團隊研究了這些活性化合物的潛在結合靶標。多年來，在大腸桿菌中進行的大量基因組敲除掃描的共識評分已經得出了 296 項基本蛋白質，所以，可以合理推斷所有真正抑制生長的靶標蛋白質都可能在這些列表當中。

作者將 218 種活性化合物中與 AlphaFold 2 預測出的 296 種基本大腸桿菌蛋白質結構進行對接，並通過幾種不同的計算方法，對 218 種化合物與 296 種蛋白質的組合進行計算，預測了 64000 多個蛋白質-配體對的結合位姿與結合親和力預測。

圖註：在 AlphaFold 結構上進行分子對接

從計算量來看，這是一個可靠度相當高的測試，尤其是考慮到內部控制的數量（具有已知靶標的化合物和在這些靶標內具有已知結合構象的化合物），這項計算是很有價值的。

作為對照，研究團隊還從一組化合物中，隨機選擇了 100 種對細菌生長完全沒有抑制作用的化合物進行相同的計算，從而獲得對 29600 個蛋白質-配體對的結合位姿與親和力預測。

基於 AlphaFold 2

預測結構的模型性能很弱

雖然這項工作預測了包括活性和非活性化合物的化合物與蛋白質混雜性，但問題是，這些預測中有多少是假陽性？

將模型預測與已知的抗生素結合目標進行比較

為了評估所用模型方法的性能，作者將模型預測與常用抗生素類別的已知相互作用進行比較。

作者搜集了先前文獻中的抗生素-蛋白質靶對，組成一個包含 142 種抗生素-蛋白質相互作用的數據集。結果發現，他們的模型僅僅正確預測了 3 種具有強結合性（即結合親和力閾值為 -7 kcal/mol ）的相互作用，以及 43 種具有一般結合性（即結合親和力閾值為 -5 kcal/mol ）的相互作用。所以，模型預測的真陽性率分別為 2.1% 和 30.3%。

這種比較表明，基於AlphaFold 2 預測結構的建模平台性能很弱。

測量 12 種基本蛋白質的酶抑制

作者接着選取了 12 種基本蛋白質，它們可以用於酶促測定，通過測量 218 種活性化合物對這些蛋白質的酶抑制，作者對模型預測的子集進行進一步的評估。

圖註：所有 218 種活性化合物的平均相對活性，12 種蛋白質都經過抑制實驗測試。結合相互作用命中是蛋白質-配體相互作用（紅點），所有其他交互都被指定為非命中（灰點）。

結果表明，所有測試中的基本蛋白質都被至少四種不同的化合物所抑制，涵蓋從強到弱的一系列結合親和力閾值，基於AlphaFold 2 的模型所預測的對接顯示出了廣泛的混雜性。

模型的基準測試

最後，作者對建模平台的性能進行了統計基準測試。基於酶抑制測量數據，作者將實驗觀察到的結合相互作用命中與他們預測的相互作用進行比較，結合親和力閾值設定為小於 -5 kcal/mol 和 -7 kcal/mol。

結果發現，更強結合性的親和力閾值會導致更少的結合相互作用預測，此時真陽性率更低，準確性更高。模型性能根據所設定的結合親和力閾值從弱到中等變化。

作者又在獨立於結合親和力閾值的條件下，使用接受者操作特徵曲線 (ROC) 和精確召回曲線 (PR) 再次進行評估，也都表明模型性能較弱。

總之，模型的預測結果中不僅存在大量假陽性（即非活性化合物被預測為與關鍵細菌蛋白質的活性位點結合），而且還有大量的假陰性（即已知存在相互作用，但沒有被發現）。只有達到最嚴格的結合親和力閾值時，模型才會比隨機預測表現得略好一些。

AlphaFold 本身沒錯

用好機器學習方法是關鍵

接下來的問題是，模型的弱性能是由AlphaFold2 所提供的蛋白質結構質量導致的嗎？

問題出自對接方法而非蛋白質結構質量

為了驗證這個問題，作者將 218 種活性化合物與八種實驗確定的蛋白質結構中的每一種對接進行了重複的對接模擬，並同樣對模型性能進行了基準測試，結果是 auROC 值在數量上與先前相似，範圍從 0.25 ( glmU ) 到 0.69 ( gyrAB )，平均值為 0.46。auPRC 值也發現了類似的結果，範圍從 0.03 ( ligA ) 到 0.56 ( gyrAB )，平均值為 0.22。

這些發現表明，使用 AlphaFold2 預測結構的分子對接與使用實驗確定的結構是類似的。這也與之前對 AlphaFold 對實驗確定的蛋白質結構的保真度評估一致，由此可以得出，模型的性能弱是因為對接方法的原因，而不是蛋白質結構的質量差。

使用機器學習方法可改進模型性能

基於分子對接的弱性能問題，研究團隊探索了可以提高性能的方法。

研究中使用了四種不同的基於機器學習的評分函數，分別是 RF-Score 、RF-Score-VS、PLEC score 和 NNScore，以對模型性能進行基準測試和改進。

相比於 RF-Score 和 RF-Score-VS – RF-Score 的虛擬篩選適應性–利用隨機森林或決策樹的組合來預測蛋白質與配體的結合親和力，PLEC score 採用了蛋白質-配體對之間的擴展連接指紋，NNScore 是基於神經網絡的集合。

作者在研究中採用了評分函數，使用 PDBbind v2016 或有用的誘餌目錄對增強（DUD-E）數據庫進行訓練，以重新評估 AutoDock Vina 預測的對接姿勢。

此外，研究使用 DOCK6.9 和應用於 AutoDock Vina 姿勢的每個基於機器學習的評分函數，還預測了每種抗菌化合物與 12 種經驗測試必需蛋白中每一種之間的結合親和力，並對每種方法的性能進行基準測試。測試結果發現，平均 auROC 值在 0.46 和 0.63 之間（下圖 A）。

其中，與 DOCK6.9 對接並使用 PLEC score 對 AutoDock Vina 姿勢進行重新評分平均，導致 auROC 值低於單獨使用 AutoDock Vina 的結果，DOCK6.9 的 auROC 值為為 0.46（範圍為 0.25 至 0.61）和 0.47（範圍 PLEC score 為 0.28 至 0.63）（下圖 A）

相比之下，使用 RF-Score、RF-Score-VS 或 NNScore 對 AutoDock Vina 姿勢進行重新評分可提高模型性能，平均 auROC 值分別為 0.62（範圍為 0.53 至 0.69）、0.63（範圍為 0.46 至 0.75）和 0.58（範圍為 0.41 到 0.69）。研究結果也與 auPRC 相似，當使用 RF-Score 重新評分時，其平均值高達 0.24。

這些模型性能評估表明，某些基於機器學習的評分函數提高了預測準確性。

圖註：使用機器學習對模型性能進行基準測試和改進。A. 在不同的分子對接程序和不同的基於機器學習的姿勢評分函數。白點表示平均值；灰色條表第25-75個百分位值的範圍；灰色箱線圖須線表示不被視為異常值的值範圍；0.5 處的水平線表示隨機預測生成的基準。B. 通過在 AutoDock Vina 應用基於機器學習的重新評分函數建模的蛋白質-配體對的排序結合親和力。曲線根據 (A) 中使用的重新評分函數着色；陰影區域表示 > 7 的結合親和力閾值。C-E. 預測準確性、預測陽性數（蛋白質-配體相互作用）和真陽性率/假陽性率對所用模型數量的依賴性。

群體智慧方法可提高預測準確性

由於某些基於機器學習的評分函數會增加 auROC 和 auPRC，研究還探討了在嚴格限制結合親和力閾值的情況下，結合“群體智慧”方法使用重新評分模型，是否可以提高預測準確性和真陽性率。

作者將預測的蛋白質-配體相互作用，定義為滿足所有模型的結合親和力閾值，並將 AutoDock Vina 預測與上述四種基於機器學習的評分函數的預測相結合；研究通過使用這種共識方法發現，預測準確性可隨着使用的模型數量而提高（上圖 C），這同預測的蛋白質-配體相互作用數量的相應減少預期一致（上圖 D）。

與此同時，真陽性率與假陽性率的比率則是隨使用模型數量的增加而增加，在預期之外（上圖 E）。

可以看到，該結果同使用某些基於機器學習的評分函數提高預測能力的發現一致，這也進一步表明了，將分子對接與基於機器學習的模型結合起來，可以讓人們更好地利用 AlphaFold2 預測的蛋白質結構進行藥物篩選。

所以，一些機器學習方法確實可以提高了預測的準確性。不過，這只是部分的成功，當前研究所用的數據集中有很多已經確定的蛋白質和化合物的實驗事實，如果涉及那些較少被關注的領域，這些方法是否仍然奏效就不可知了。

雖然 AlphaFold 為我們提供了大量且合理的蛋白質結構，但我們實現它的價值的能力還非常有限。所以至少在目前看來，“AlphaFold 將徹底改變藥物發現”的說法還尚待證實，成功還在未來。

參考鏈接：

https://www.science.org/content/blog-post/not-alphafold-s-fault