DeepMind 再創里程碑公開35萬種蛋白質預測結構

蛋白質對於生命至關重要，幾乎所有疾病，包括癌症、痴呆症都與蛋白質的結構和功能息息相關。數以億計的蛋白質結構含有豐富的生物信息，既可以用於生物過程推理，也可以用於藥物開發或藥物干預。然而，經過幾十年的努力，科學家們只預測了人類蛋白質序列中17%的氨基酸殘基。

7月23日，《Nature》雜誌發表的一篇題為“Highly accurate protein structure prediction for the human proteome”的研究論文引爆各大社交網絡。

DeepMind 再創里程碑公開35萬種蛋白質預測結構

這篇論文出自人工智能明星公司 DeepMind，當天其創始人 Demis Hassabis 在Twitter上興奮的表示，“ 這是我夢寐以求的一天，DeepMind 的創辦初衷就是用人工智能推動科學發展，造福於人類，我為我們的研發團隊感到無比驕傲。”

據悉，這項研究成果將人類蛋白質組預測範圍覆蓋到了 98.5%，其中58%的氨基酸的結構位置做出可信預測（confident prediction），對36%的氨基酸的結構預測達到很高的置信度（very high confidence）。

DeepMind 再創里程碑公開35萬種蛋白質預測結構

DeepMind在官方博客中表示，作為蛋白結構預測的強大的工具，AlphaFold將被廣泛應用於生命科學以及藥物研發等領域。“我們相信，這是迄今為止人工智能為推進科學發展做出的最重要的貢獻，也是人工智能造福人類最有價值的示例”。

這篇博客的標題為《把AlphaFold的力量交到全世界的手中》，可見DeepMind對AlphaFold改變生命科學研究的信心。

為了支持生物學和醫學研究，DeepMind 與歐洲生物信息學研究所 ( EMBL-EBI ) 合作創建了第一個AlphaFold DB，並免費向學術界開放。這是迄今為止人類蛋白質組最完整、最準確的高質量數據集，它比人類通過生物實驗確定的蛋白質結構的數量還多兩倍。

DeepMind 再創里程碑公開35萬種蛋白質預測結構

數據集地址：https://alphafold.ebi.ac.uk/

數據庫涵蓋了人類蛋白質組和其他 21 種關鍵生物的全蛋白質結構預測結果，包括大腸桿菌、果蠅、斑馬魚等，蛋白質種類達到了 35 萬種。

DeepMind 表示，在接下來的數月，他們計劃將數據庫的範圍擴大到 1.3 億個蛋白結構，目標是為所有具有已知序列的蛋白提供預測結構。

這項研究公布后，2009 諾貝爾生理學和醫學獎得主 Paul Nurse、馬克斯.普朗克生物物理化學研究所負責人 Patrick Cramer、朴茨茅斯大學結構生物學教授兼酶創新中心 (CEI) 中心主任 John McGeehan、Google 創始人兼首席執行官 Sundar Pichai等眾多科學家對此表達了高度讚譽，John McGeehan表示：“我們花費數月，甚至數年才完成的事情，AlphaFold 現在可能只需要一個周末。”

而Sundar Pichai在Twitter中寫道：

“AlphaFold數據庫顯示了人工智能深刻加速科學進步的潛力。DeepMind的機器學習系統不僅在一夜之間極大地擴展了我們對蛋白質結構和人類蛋白質組所積累的知識，而且它對生命組成部分的深刻見解為科學發現的未來帶來了非凡的希望。”

DeepMind 再創里程碑公開35萬種蛋白質預測結構

AlphaFold預測結構並非沒有局限性，如尚且不能預測複雜複合體的3D結構；在動態過程中，通常只能預測一個蛋白構象；對於不產生特定結構的氨基酸序列，無法做出可信的結構預測。

然而，在五位行業專家的眼中，當DeepMind開始關注開源開放，並公開AlphaFold2源代碼和更多細節后，科學界將在此基礎上加速開發出更好的解決方法，這是人工智能預測蛋白質，以及生物計算領域又一次飛躍的機會。（以下排序不分先後）

許東，密蘇里大學教授，AAAS、AIMBE Fellow

從應用層面來講，這項研究所帶來的行業影響力是巨大的。DeepMind在論文中提到的高置信度蛋白質結構預測，基本可以達到准實驗精度，而這極大地擴展了它的應用範圍。在以往的研究中，受限於預測的精度和可信度，諸如小分子藥物設計等方面的研究受到了很大的阻礙，而現在能夠在高置信度蛋白質結構上做分子對接預測。

當然， AlphaFold2 目前也存在一定的局限性，比如很多蛋白和區間並不能達到高置信度，AlphaFold2評估的一些高置信度，本質上更像是一種高可信性的假設，它與實驗的第一手的觀察仍有差距。其主要原因在於蛋白質結構具有的很強的多變性，個別情況下，幾個氨基酸可能就會完全改變其結構和功能，而人工智能系統基於統一性，很難發現這種變化和差異。換言之，預測結構與實驗室結構仍不能完全划等號。不過我相信，隨着算法的提升和AI的數據邊際效應，AlphaFold2仍有很大的提升空間。

值得一提的是，國內近年來在AI預測蛋白質結構方面的研究也取得了長足的進步。比如中科院卜東波教授主持的FALCON預測系統，其預測精度有了大幅度提升，雖然仍未達到AlphaFold2 的預測水平，但整體趨勢是快速向前發展的，這是人工智能技術日漸成熟的一種必然結果。

人工智能預測在本質上是基於大數據的統計，而非物理學過程。蛋白質摺疊結構中的一些物理屬性，比如不同的酸鹼度、溫度造成的結構變化，AI是無法預測和分析的，這意味它不能完全取代傳統以物理為基礎的模擬、預測方法。不過，AI善於從海量數據中挖掘深度信息、發現規律，這種模式與蛋白質結構預測等生物學研究需求非常契合，相信它未來會為生物學界和科學界帶來更大突破性的成果。

張陽，密歇根大學教授，I-TASSER 算法發明人

我有幸參加了 DeepMind 兩篇研究論文的評審工作。總體來看，所有審稿人都對第一篇 AlphaFold2 關於算法的文章評價很高，而對本次關於人類基因組的應用的論文有所保留，具體包括以下幾個方面：

第一是論文缺乏新意。自從蛋白質結構預測問題被提出后，特別是人體基因組計劃后，如何用計算機算法對整體基因組進行蛋白質結構預測，便成為了科學家努力的目標。在過去二十年，關於基因組蛋白質結構預測的論文發表已發表很多，這遠不是第一篇。

第二，從方法學來講，蛋白質預測關鍵在於算法開發，應用層面是很直接的事情，只要有足夠的計算機資源就可以實現。

第三，這篇文章注重強調如何利用預測結構對蛋白質功能進行分析，特別展示了三個蛋白例子。雖然這些努力很可貴，但是沒有一個例子是經過雙盲實驗驗證，而這在蛋白質功能預測方面是非常必要的。

這篇工作之所以備受關注，是因為 AlpahFold2 算法（即第一篇論文）達到了目前為止計算機能夠預測的最高精度。從 CASP14 的結果來看，AlphaFold2 有2/3的目標蛋白達到了實驗精度，在難度較高的非同源序列預測上，有1/3的目標蛋白達到這個精度，而人體基因庫中尚未解開的蛋白大部分為非同源蛋白。另外一方面，因為歷史的原因，CASP14 的測評是基於單結構域的小蛋白質結構。對多結構域的大蛋白質或者多鏈蛋白質複合體結構的預測，AlphaFold2 的模擬精度還是一個未知數。

許錦波，芝加哥豐田計算技術研究所教授，斯隆獎得主

DeepMind 向外界公開源代碼和數據庫，將對學術界和工業界的研究發展產生重大影響，尤其是生物製藥等工業界。目前國內的研究成果可能略顯滯后，但隨着人工智能算法的提升，加上更多高質量數據庫的開源，相信在未來的2-3年內相關研究會有一個質的飛躍，或者達到與DeepMind比肩的水平。

作為最高等的生物，人類蛋白質組的預測難度比較高，AlphaFold 雖然預測人類蛋白的覆蓋率達到了 98.5%，但其在氨基酸層面的結構預測上仍有一定的提升空間。

蛋白質高精度預測不能完全依賴於人工智能技術，它應作為生物實驗方法的最佳補充技術，二者的關係是相輔相成的。數十年來，實驗方法尚未解開的人類蛋白結構，仍需要基於大數據和算力的AI提供更多思路和可能，同時，加速現有生物結構研究的AI，其預測結果仍需要得到實驗的驗證。

知名專家，人工智能與蛋白質結構預測資深從業者

在方法創新上，AlphaFold提出了一套全新的模型架構與訓練策略；在應用價值上，AlphaFold蛋白質結構數據庫，將為更好地理解蛋白質在生物體內的功能與作用提供見解和參考。對於行業而言，AlphaFold為蛋白質單鏈結構、蛋白質複合體以及蛋白質小分子等結構預測任務指明了思路，對基於結構的藥物設計等領域可能會有較大的推動作用。

目前，AlphaFold 對於模型輸入側的同源序列信息仍然存在一定的依賴，可能會出現預測不夠精確的問題；同時，對於三維結構更多依賴於異構接觸（heterotypic contacts）而非鏈內接觸或同構接觸的蛋白質，也可能出現精度問題，這也是作者在論文中所提到的未來改進方向之一。

在 AlphaFold（以及David Baker組的RoseTTAFold）發布之前，國內已有一些將端到端學習引入到蛋白質結構預測中的初步嘗試（包括我們tFold），在預測精度方面，基本可以達到與CASP14中排名第二的Baker組相仿的水平，但與AlphaFold 仍存在一定差距。在 AlphaFold 論文及代碼公開后，相信國內這方面的研究將在短期內迎來較大的提升幅度。

在蛋白質結構預測領域，AlphaFold 的出現，在一定程度上降低了基於實驗數據的蛋白質結構測定的工作量；同時，通過結合真實實驗數據和 AlphaFold 預測出的結構預測結果，可以解析出具有更高分辨率的蛋白質結構，為下游任務提供指導。此類技術可以僅基於序列數據，是基於實驗數據的蛋白質結構數據庫的某種程度上的有效補充。另一方面，現有方法的可解釋性以及與物理先驗知識的結合尚顯不足，如何為結構預測結果提供令人信服的置信度衡量和微觀層面上的理論支持，還有待進一步探索。

郭天南，西湖大學教授，蛋白質組大數據實驗室負責人

這項成果意味 AI 已進入生命科學的微觀分子領域，並且向生命科學研究人員開放，其意義類似於AlphaGo進入人們生活（圍棋領域），它的廣泛使用可能對結構生物學產生重大影響。

正如DeepMind在論文中所說，Alphafold2 雖然發現了很多新的蛋白質結構，但是這些結構是否完全正確，尚需要傳統生物實驗的驗證。在生命活動中，蛋白質的結構和功能具有高度的複雜性和動態性，在不同的功能狀態下，結構可能也會發生改變。如某一個氨基酸的翻譯后修飾可能完全改變蛋白質的結構和功能，而目前，AlphaFold2是否具有氨基酸水平和翻譯后修飾的準確度，尚有待進一步研究和驗證。

蛋白質是生命活動的重要元件。蛋白質結構的解析是理解蛋白質的基石。AI用於蛋白質結構的預測，是非常好的趨勢，象徵著蓬勃發展的AI精英們進入生命科學的微觀世界。其成果有可能在藥物研發中發揮重要作用。

當然，具有革命性的新技術的出現，也必然會受到該領域的嚴格審核。AlphaFold2的廣泛應用可能會受到一些阻力，但是這些阻力也正是科學技術不斷發展的動力。我相信AI應用於生命科學和醫療會越來越廣泛深入。

AI 預測蛋白質，已成競賽之勢

通過實驗方法確定蛋白質結構是一項耗時且艱苦的工作，而 AlphaFold 證明了人工智能可以在短短几分鐘內準確預測蛋白質結構，並且精確到原子級。

諾貝爾化學獎得主克里斯蒂安·安芬森（Christian Anfinsen）在1972年曾提出，基於蛋白質的1D氨基酸序列可計算並預測蛋白質的3D結構。然而，3D結構在形成之前會有數以億計的摺疊方式。有數據顯示，一個典型的蛋白質大約有10∧300種可能的構型，如果用蠻力來計算所有可能的構型可能花費的時間比宇宙都要長。

DeepMind 再創里程碑公開35萬種蛋白質預測結構

去年，DeepMind 推出的人工智能預測系統全新版本 AlphaFold 2，攻克了這項長達50年多年的重大挑戰，並獲得了權威蛋白質結構預測評估機構（CASP）的認可——AlphaFold 2通過氨基酸序列預測蛋白質摺疊結構，在 CASP14 評估中的總體中位數達到了 92.4 GDT。

DeepMind 再創里程碑公開35萬種蛋白質預測結構

這意味着，AlphaFold 2 的結構預測達到了與使用冷凍電子顯微鏡（CryoEM）、核磁共振或 X 射線晶體學等實驗技術解析3D結構幾乎相當的精度。

其他同類 AI 相比，當時 AlphaFold2 的預測精度遙遙領先。

然而一周前，一支來自西雅圖華盛頓大學醫學院蛋白質設計研究所的研究團隊發表論文“Accurate prediction of protein structures and interactions using a three -track neural network”提出，其研發的蛋白質預測系統 RoseTTAFold，已達到與 AlphaFold2 幾乎相當的水平，甚至在預測蛋白質3D結構方面速度更快、所需計算機處理能力更低。

這項最新研究成果發布后立即登上了《 Science 》雜誌。有趣的是，同一天，DeepMind在《Nature》也發表了兩篇論文，公開了AlphaFold人工智能系統的源代碼，並詳細描述了它的設計框架和訓練方法。

目前，RoseTTAFold 的預測精度在 CASP14評估系統中排名第二，僅次於AlphaFold 剛剛發布的最新成果。此外，RoseTTAFold也選擇了開放源代碼和服務器免費提供給科學界。

可以預見，隨着 RoseTTAFold 和 AlphaFold2 源代碼的公布，研究人員在兩者的基礎上繼續前進，將有望對人工智能系統做出進一步改進，如攻克目前尚且無法確定構象的蛋白，以及設計全新的蛋白，相信更多科研機構將在短期內將迎來爆髮式的提升。

相關鏈接：

https://www.deepmind.com/blog/article/putting-the-power-of-alphafold-into-the-worlds-hands

https://www.nature.om/articles/s41586-021-03828-1