生物史最全“證件照”:DeepMind開放35萬種蛋白質結構,超人類知識2倍

今天將成為人類生物學歷史上具有重大意義的一天!智東西7月23日消息,今日,人工智能研究實驗室DeepMind與歐洲生物信息學研究所EMBL-EBI(European Bioinformatics Institute)合作,推出了AlphaFold蛋白質結構數據庫,該數據庫提供了迄今為止人類蛋白質組最完整、最準確的圖像,是人類積累的高精度人類蛋白質結構知識的兩倍多。

智東西

編譯 | 韋世瑋 徐珊

編輯 | 漠影

除了人類蛋白質組(人類基因組表達的所有蛋白質約2萬種)之外,他們還將提供其他20種具有生物學意義的生物蛋白質組的開放訪問,總計超過35萬種蛋白質結構,包括從果蠅到小鼠等動物,以及從大腸桿菌到酵母等細菌。

發布第一批數據后,DeepMind計劃繼續增加蛋白質庫,幾乎覆蓋所有科學已知的已測序蛋白質,共超過1億種結構,該庫將由EMBL維護。在EMBL總幹事Edith Heard看來:“這些數據集將改變我們對生命運作方式的理解。”

“我認為這是DeepMind整個10年多生命周期的頂峰。”DeepMind聯合創始人兼CEO Demis Hassabis談道,從成立之初,DeepMind就打算將AI方面取得的突破在圍棋、雅達利等遊戲上進行測試,並將其應用於現實世界的問題,以加速科學突破並造福人類。

Demis Hassabis稱,這些數據對科學和商業研究人員來說都將永久免費開放。“任何人都可以將它用於任何事情,他們只需要歸功於參與引用的人。”他說。

生物史最全“證件照”:DeepMind開放35萬種蛋白質結構,超人類知識2倍

▲長期以來,人源中介體複合物(Mediator Complex)一直是結構生物學家最具挑戰性的多蛋白系統之一。(圖源:Nature)

一、AlphaFold預測蛋白質結構,緩解多領域生物研究瓶頸

21世紀是生物的世紀,更是計算機的世紀。

早在去年12月,DeepMind就推出了AlphaFold 2系統,可通過AI軟件對蛋白質結構進行準確預測,該解決方案被認為能解決困擾科學家們50年的蛋白質摺疊(protein folding)問題。

直到上周,DeepMind還發表了相關科學論文和源代碼,以解釋如何創建這個高度創新的系統,允許其他人通過AlphaFold來完成相關研究工作。

AlphaFold系統的誕生,證明了AI可以在幾分鐘內準確預測蛋白質的3D結構,精確到原子精度。而AlphaFold蛋白質結構數據庫的開放,也將促進世界各地的科學家們加速對人類蛋白質的研究。

那麼,何為蛋白質摺疊問題?

簡單來說,許多生物過程都是圍繞蛋白質來進行的,而蛋白質是由氨基酸序列組成的大型複雜分子,其真正的作用取決於自身獨特的3D結構,也就是蛋白質中氨基酸序列的摺疊方式。

了解蛋白質結構能增進人類對生命組成部分的理解,從而推動科學家們在各個領域的研究。

例如,英國朴茨茅斯大學(CEI)正在利用AlphaFold來設計一種新型酶,以快速分解污染嚴重的一次性塑料等廢物;美國科羅拉多大學博爾德分校通過AlphaFold預測,來研究抗生素耐藥性的前景;美國加利福尼亞大學舊金山分校則使用AlphaFold來研究新型冠狀病毒的工作原理……

生物史最全“證件照”:DeepMind開放35萬種蛋白質結構,超人類知識2倍

▲AlphaFold預測的蛋白質結構的兩個例子(藍色)與實驗結果(綠色)的比較(圖源:DeepMind)

這些都是科學家們利用科技帶來的大量生物數據信息,一步步轉換為未來人類的進步。

但科學家們指出,這些信息轉換到現實世界併產生結果的過程,仍需要大量時間。“我認為這不會在一年內改變患者的治療方式,但它肯定會對科學界產生巨大影響。”科羅拉多大學生物化學系教授Marcelo C. Sousa說。

需要注意的是,AlphaFold軟件生成的是蛋白質結構的預測,而不是實驗確定的模型,這意味着在某些情況下,科學家還需要進一步的工作來驗證結構。

DeepMind對此表示,他們花了許多時間在AlphaFold軟件中構建準確度指標,讓它能對每個預測的可信度進行排名。

不過,蛋白質結構的預測仍對科學研究帶來了巨大幫助。以往科學家們確定蛋白質結構的實驗過程既耗時又昂貴,還要依賴大量反覆試驗,而蛋白質結構預測即便置信度低,也可以為科學家指明正確的研究方向,為他們節省多年的工作。

英國格拉斯哥大學(University of Glasgow)結構生物學教授Helen Walden認為,DeepMind的數據將“顯著緩解研究瓶頸”,但“進行生物化學和生物學評估的費力、耗費資源的工作”將繼續存在,例如藥物功能研究。

Sousa也提到,他曾在工作中使用過AlphaFold的數據,“科學家們能快速地感受到它帶來的影響。”他說,在他們與DeepMind的合作中,他們有一個包含蛋白質樣本的數據集,但10年來都還沒開發出一個合適的模型,直到DeepMind同意為他們提供一個結構,在15分鐘內就解決了這個問題。

生物史最全“證件照”:DeepMind開放35萬種蛋白質結構,超人類知識2倍

二、蛋白質摺疊難題背後,AlphaFold分析速度已提升16倍

AlphaFold只需15分鐘就能解決的問題,為何困擾了這些科學家10年?蛋白質摺疊問題究竟難在哪?

如我們前面所說,蛋白質由氨基酸鏈構成,人體中共含有20種不同的氨基酸,任何一個蛋白質都可以由數百個氨基酸組成,且每個氨基酸都有不同的摺疊和扭曲結構。

這些都意味着,哪怕是一個常見的蛋白質分子,它的最終結構都有許多種可能構型。一個估計是,典型的蛋白質可以以10^300種方式摺疊。不用數了,就是“1”後面跟着300個“0”的可能性。

不過由於蛋白質的樣本太小,科學家們難以用顯微鏡檢查,不得不使用成本昂貴且複雜的方法來間接確定蛋白質結構,比如核磁共振和X射線晶體學(X-ray crystallography)。

但實際上,簡單地通過氨基酸序列來確定蛋白質結構的構想,在理論上一直是難以實現的。因此,分析蛋白質結構也成為了人們攻克生物學領域的一大難關。

直到近年來,人們發現可以利用AI的方法來分析蛋白質結構。藉助這些技術,AI系統可以通過在已知蛋白質結構的數據集上進行訓練,並最終利用這些信息來預測蛋白質結構。

多年來,很多團隊都參與到這項AI研究中,其中DeepMind基於深厚的AI人才庫和大量計算資源基礎,一直走在該領域的前沿。

去年,DeepMind在一項名為CASP的國際蛋白質摺疊比賽中脫穎而出,其AlphaFold軟件對蛋白質結構的預測結果非常準確。對此,CASP聯合創始人之一的計算生物學家John Moult說:“在某種意義上,蛋白質摺疊的難題已經有了解決方案。”

生物史最全“證件照”:DeepMind開放35萬種蛋白質結構,超人類知識2倍

▲DeepMind的AlphaFold軟件顯着提高了計算蛋白質摺疊的準確性(圖源:DeepMind)

自去年CASP競賽以來,AlphaFold系統也實現了升級,現在它分析蛋白質結構的速度已提高了16倍。“我們可以在幾分鐘內摺疊一個普通蛋白質,多數情況下只要幾秒鐘。”Hassabis談道。

英國雷丁大學教授Liam McGuffin曾開發出一些蛋白質摺疊軟件,他肯定了AlphaFold的技術,但也指出,AlphaFold的成功主要歸功於科學家們數十年的先前研究和公開數據。

“DeepMind擁有大量研究資源來保持數據庫的更新,他們比任何一個學術團體都更有能力做到這一點。”McGuffin認為,儘管科學家們最終也會走到這一步,但速度會更慢,因為他們沒有足夠的資源。

三、持續推進AI發展,年底數據庫結構將增至1.3億個

儘管DeepMind每年都處於大量虧損的狀態,但這次開放蛋白質結構數據庫是免費的。

實際上,DeepMind歸屬於Google母公司Alphabet,該公司一直在商業醫療保健領域投入大量資源。還有許多報道稱,DeepMind與Alphabet在研究自主性和商業可行性等問題上存在分歧。

不過Hassabis談道,公司一直在計劃免費提供這些信息,這樣做是對DeepMind創始精神的體現。“我們在被收購時與Alphabet達成的協議是,DeepMind主要的研究目的是推進AGI(通用人工智能)和AI技術的發展,然後利用它們來攻克科學領域的難題。”他說。

他認為,Alphabet有許多部門都專註於盈利,但DeepMind對研究的關注能夠“為科學界帶來各種各樣的好處,包括聲望和信譽,從而通過多種方法實現價值。”

Hassabis還強調,雖然DeepMind的主要研究目標是一些基礎領域,但其技術已廣泛應用於Google的其他業務中。“幾乎你使用的任何Google產品,其中一部分技術都有我們的參與。”他透露。

與此同時,Hassabis預測AlphaFold將成為未來的標誌,因為它展示了AI在處理人類生物學等複雜問題上的巨大潛力。

“我認為我們正處於一個非常激動人心的時刻。”Hassabis提到:“在接下來的十年中,我們和AI領域的其他人都希望能取得突破性進展,真正加速解決我們在地球上面臨的真正重大問題。”

對於接下來的計劃,EMBL-EBI的結構生物信息學Sameer Velankar談道,到今年年底,本周提交的大約36.5萬個蛋白質結構預測將增加至1.3億個,幾乎是所有已知蛋白質的一半。

此外,隨着DeepMind的繼續投資,以及未來對AlphaFold的改進,系統和數據庫也將定期更新。

結語:站在巨人肩膀上看未來,以AI實現多領域多點開花

對DeepMind而言,從AlphaFold系統的更新迭代到蛋白質結構數據庫的開放,研究團隊在五年裡不僅必須要創造性地克服許多技術難題,還要面臨許多複雜算法的創新挑戰,這些都是推動人工智能和生物學領域發展的必經之路。

不能忽視的是,DeepMind乃至未來研究團隊的創新,都是建立在先前幾代科學家的研究發現上。從蛋白質成像和晶體學的早起先驅,到數以千計的預測專家和結構生物學家,他們一路披荊斬棘,花了多年時間對蛋白質展開深入研究。

我們也期待,站在巨人的肩膀上的他們,未來能開闢更多創新的科學研究途徑,推動更多領域的發展和進步。

來源:DeepMind、TheVerge、Nature

(0)
上一篇 2021-07-23 14:05
下一篇 2021-07-23 14:05

相关推荐