兩大頂級AI算法一起開源 Nature、Science齊發Alphafold2相關重磅

2021-07-16 14:05 • 熱點資訊

今天一波Nature、Science齊發文，可把學術圈的嗑鹽人們高興壞了。一邊是“AI界年度十大突破”AlphaFold2終於終於開源，登上Nature。另一邊Science又出報道：華盛頓大學竟然還搞出了一個比AlphaFold2更快更輕便的算法，只需要一個英偉達RTX2080
GPU，10分鐘就能算出蛋白質結構！

要知道，當年AlphaFold2橫空出世，那是真·沸騰了學術圈。

不僅GoogleCEO皮猜、馬斯克、李飛飛等大V紛紛點贊，連馬普所的演化生物研究所所長Andrei Lupas都直言：它會改變一切。

結構生物學家Petr Leiman感嘆，我用價值一千萬美元的電鏡努力地解了好幾年，Alphafold2竟然一下就算出來了。

更是有生物學網友表示絕望，感覺專業“前途渺茫”：

而今天這一波Nature、Science神仙打架，再次點燃話題度。

讓學界狂熱的Alphafold2

先說被頂刊爭相報道的Alphafold2，它作為一個AI模型，為何引起各界狂熱？

因為它一出來，就解決了生物學界最棘手的問題之一。這個問題於1972年被克里斯蒂安·安芬森提出，它的驗證曾經困擾科學家50年：

給定一個氨基酸序列，理論上就能預測出蛋白質的3D結構。

蛋白質由氨基酸序列組成，但真正決定蛋白質作用的，是它的3D結構，也就是氨基酸序列的摺疊方式。

為了驗證這個理論，科學家們嘗試了各種手段，但在CASP14（蛋白質結構預測比賽）中，準確性也只達到40分左右（滿分100）。

直到去年12月，Alphafold2出現，將這一準確性直接拔高到了92.4/100，和蛋白質真實結構之間只差一個原子的寬度，真正解決了蛋白質摺疊的問題。

Alphafold2於當年入選Science年度十大突破，被稱作結構生物學“革命性”的突破、蛋白質研究領域的里程碑。

它的出現，能更好地預判蛋白質與分子結合的概率，從而極大地加速新葯研發的效率。

今天，Alphafold2的開源，又進一步在AI和生物學界激起了一大波浪。

GoogleCEO皮猜很高興：

亦有生物學博士表示：未來已來！

來自UC伯克利AI實驗室的博士Roshan Rao在看過後表示，這份代碼看起來不僅容易使用，而且文檔也非常完善。

現在，是時候藉著這份開源算法，弄清Alphafold2的魔術是怎麼變的了。

AlphaFold2詳細信息公開

研究人員強調，這是一個完全不同於AlphaFold的新模型。

2018年的AlphaFold使用的神經網絡是類似ResNet的殘差卷積網絡，到了AlphaFold2則借鑒了AI研究中最近新興起的Transformer架構。

Transformer使用注意力機制興起於NLP領域，用於處理一連串的文本序列。

而氨基酸序列正是和文本類似的數據結構，AlphaFold2利用多序列比對，把蛋白質的結構和生物信息整合到了深度學習算法中。

AlphaFold2用初始氨基酸序列與同源序列進行比對，直接預測蛋白質所有重原子的三維坐標。

從模型圖中可以看到，輸入初始氨基酸序列后，蛋白質的基因信息和結構信息會在數據庫中進行比對。

多序列比對的目標是使參與比對的序列中有儘可能多的序列具有相同的鹼基，這樣可以推斷出它們在結構和功能上的相似關係。

比對后的兩組信息會組成一個48block的Evoformer塊，然後得到較為相似的比對序列。

比對序列進一步組合8 blocks的結構模型，從而直接構建出蛋白質的3D結構。

最後兩步過程還會進行3次循環，可以使預測更加準確。

△如何用三維坐標確定結構

還有更快、成本更低的算法？

AlphaFold2首次公布的時候並沒有透露太多技術細節。

在華盛頓大學，同樣致力於蛋白質領域的David Baker一度陷入失落：如果有人已經解決了你正在研究的問題，但沒有透露他們是如何解決的，你該如何繼續研究?

不過他馬上重整旗鼓，帶領團隊嘗試能不能復現AlphaFold2的成功。

幾個月後，Baker團隊的成果不僅在準確度上和AlphaFold2不相上下，還在計算速度和算力需求上實現了超越。

就在AlphaFold2開源論文登上Nature的同一天，Baker團隊的RoseTTAFold也登上Science。

RoseTTAFold只需要一塊RTX2080顯卡，就能在10分鐘左右計算出400個氨基酸殘基以內的蛋白質結構。

這樣的速度，意味着什麼？

那就是研究蛋白質的科學家不用再排隊申請超算資源了，小型團隊和個人研究者只需要一台普通的個人電腦就能輕鬆展開研究。

RoseTTAFold的秘訣在於採用了3軌注意力機制，分別關注蛋白質的一級結構、二級結構和三級結構。

再通過在三者之間加上多處連接，使整個神經網絡能夠同時學習3個維度層次的信息。

考慮到現在市場上顯卡不太好買，Baker團隊還貼心的搭建了公共服務器，任何人都可以提交蛋白質序列並預測結構。

自服務器建立以來，已經處理了來自全世界研究者提交的幾千個蛋白質序列。

這還沒完，團隊發現如果同時輸入多個氨基酸序列，RoseTTAFold還可以預測出蛋白質複合體的結構模型。

對於多個蛋白質組成的複合體，RoseTTAFold的實驗結果是在24GB顯存的英偉達Titan RTX上計算30分鐘左右。

現在整個網絡是用單個氨基酸序列訓練的，團隊下一步計劃用多序列重新訓練，在蛋白質複合體結構預測上還可能有提升空間。

正如Baker所說：我們的成果可以幫助整個科學界，為生物學研究加速。

alphafold nature science

赞 (0)

京牌滬牌轉播車現身東京街頭由專業日本司機駕駛

上一篇 2021-07-16 14:04

因狗尿腐蝕6米高交通信號燈柱倒塌網友：水滴石穿尿斷電杆

下一篇 2021-07-16 14:05

熱點資訊

新航空圖像拍攝系統Microballoon：可重複使用且成本更低

當涉及到拍攝高清晰度的航空照片時，我們通常會選擇衛星、無人機或全尺寸的飛機。然而位於科羅拉多州的Urban Sky的新Microballoon系統據稱能以更低的成本提供更高分辨率的…

2021-12-31
熱點資訊

寶馬X5八月賣出8000多台吊打奔馳、奧迪、沃爾沃三家

今年4月份，國產寶馬X5L正式上市，其共推出四款車型，售價區間為60.50-77.50萬元，相比於進口版，起售價便宜了將近10萬元。而據寶馬官方消息，從9月份生產月開始，國產寶馬X…

2022-09-13
熱點資訊

“暗星”–黑洞的一段簡史

2018年底，引力波觀測站LIGO宣布，他們探測到了有史以來最遙遠、最大規模的時空漣漪源：由一對黑洞在深空碰撞引發的引力波。自2015年以來，科學家們才得以觀察到這些看不見的天文體…

2022-05-11
熱點資訊

科技股遇金融危機后最糟行情華爾街期待巨頭“靚麗”財報

北京時間1月26日早間消息，據報道，近日，美國股市科技股出現了金融危機以來最嚴重的一月份大跌，與此同時，一大批科技巨頭們即將發布新一期財報。對於科技股未來的走勢表現，投資人現在的心…

2022-01-26
熱點資訊

科學家或在大腦中發現了一種能治療癲癇的新修復機制

據外媒報道，弗吉尼亞大學的研究人員可能發現了一種之前未知的大腦修復機制。被稱為小膠質細胞的免疫細胞被觀察到超越了它們已知的作用並幫助受傷的神經元癒合，而這可能能為癲癇和其他疾病的新…

2021-07-26
熱點資訊

新專利申請顯示蘋果眼鏡可以將虛擬控制放在佩戴者的手中

蘋果公司的AR設備，如”蘋果眼鏡”或其他頭戴式顯示器，可能會檢測到佩戴者何時伸出手，並在那裡放置一個虛擬控制面板。該公司此前曾研究過將任何錶面變成帶有觸摸控…

2021-06-25
熱點資訊

逆向編譯Home應用第二代Nest Doorbell（有線）顯出蹤跡

一年前，Google 曾宣布將於 2022 年推出第二代 Nest Doorbell（有線）。在 10 月 6 日硬件發布會之前，國外科技媒體 9to5Google 通過逆向編譯 …

2022-09-11
熱點資訊

字節跳動內部回應“實習生遭遇職場PUA”事件：正在調查核實

5月15日消息，針對網傳“北大實習生遭遇職場PUA”事件，5月14日晚間，字節跳動企業紀律與職業道德委員會在內部回應稱，正在調查中，如果屬實將明確處理和糾正。據內部流傳出來的截圖…

2021-05-15
熱點資訊

三星遙遙領先：全球DRAM存儲器第三季度排名出爐

一直以來，DRAM存儲器市場的全球玩家都不多，而排名靠前的更是只有那幾家，比如三星、SK海力士、美光等等。日前，TrendForce集邦諮詢公布2021年第三季度全球DRAM廠自有…

2021-11-17
熱點資訊

媲美x86/Arm/RISC-V 龍芯CPU自主龍架構再進一步

據龍芯中科官方消息，2022年9月初，UEFI官方組織在新發布的UEFI v2.10規範中，全面支持了龍芯處理器的LoongArch64架構，以及部分LoongArch32架構。近…

2022-10-20