AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

AI在生物學領域再次立功了。今天,Science封面刊登了AI在預測 RNA分子結構上的重大進展。來自斯坦福大學的研究團隊,使用一種叫做 ARES的幾何深度學習,在預測RNA三級結構上達到了前所未有的準確度。

曉查 明敏 發自 凹非寺

量子位 報道

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

一個月前,AlphaFold 2預測人類98.5%的蛋白質,驚艷了全世界。

但是與蛋白質相比,同樣是生物分子的RNA,人類對它的研究主要還停留在二級結構上,對三級結構知之甚少。

加州大學歐文分校的藥物學家Robert Spitale說, 我們對大部分RNA結構幾乎一無所知。

一無所知到什麼程度呢?

人類基因轉錄為RNA的數量是蛋白質數量的 30倍。迄今為止實驗已經確定了 數千種蛋白質的三級結構,而人類測定三級結構的RNA不到 蛋白質的1%,大約只有 幾十種

現在ARES已經預測了1500種RNA分子結構,從過去的將精度提高了4Å左右(1Å等於0.1納米),平均誤差為12Å。,當相比之前的方法有了顯著提升。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

雖然和AlphaFold 2預測35種蛋白質相去甚遠,也達不到原子級精度(大約1Å),但這足以稱為一項開創性研究。

因為斯坦福大學的科學家們的訓練集只有18個結構數據,少得可憐,取得如此大幅的提升實屬不易。

ARES的出現,讓AI預測RNA三級結構的細節成為可能。

論文的第一作者、斯坦福大學博士Raphael Townshend說:“結構生物學是對分子形狀的研究,在生物學中有一句名言,即結構決定功能。”

因此,這項研究有助於科學家們去發現RNA的生物學功能,並為發現新型RNA靶向藥物鋪平道路。

為何要研究RNA

為什麼要研究RNA呢?

這與它在整個生命活動中發揮的重要作用離不開關係。

在生物體內,RNA具有十分重要的細胞功能,包括合成蛋白質、催化反應、調節基因表達、調節先天免疫和感知小分子等。

一方面,RNA是遺傳信息表達的重要一環。

只有通過RNA的轉錄、翻譯,DNA中的信息才能在蛋白質中表達。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

RNA轉錄

另一方面,RNA還能調節一些重要生命活動。

核糖RNA可以催化肽鏈的生成,為轉移RNA提供結合位點,參與核糖體大小亞單位的結合、校正閱讀等等功能。

而且,參與遺傳信息表達的RNA只佔RNA總量的20%不到,這意味着有大部分遺傳信息都還沒有被表達出來。

還有一些病毒是以RNA作為遺傳信息的載體,比如引起新冠肺炎的SARS-CoV-2,就是一種RNA病毒。

因此,研究RNA是探索生命奧秘的必經之路。

除了研究層面,在實際應用上RNA能發揮的作用也越來越多。

依據致病基因的序列信息,科學家開發出了RNA藥物、RNA疫苗。

它們可以從基因層面就發揮作用,靶向抑制致病蛋白的表達,在醫學領域具有非常廣泛的應用前景。

RNA研究難點在哪

結構生物學有一個信條,即結構決定功能,RNA也不例外。

在知道RNA對生命活動發揮如此大作用后,科學家首先要做的,就是探究RNA的結構。

這也是RNA研究的一大難點。

不同於DNA穩定的雙鏈結構,RNA絕大多數情況下都以單鏈形式存在。

但是單鏈RNA可以通過摺疊形成雙鏈結構,再摺疊形成三級結構。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

而且RNA的糖環上有3個自由烴基,而DNA由於脫氧只有兩個,所以RNA的化學性質也更加活潑,也就是更容易發生反應。

此外,RNA還更容易被自己的分解酶降解。

這些原因使得RNA在實驗過程中操作難度也更高。

事實上,到目前為止人類已知的RNA結構只有幾十種。既然實驗難以測定,所以科學家開始把目光放在了AI預測RNA結構上。

和AlphaFold 2的不同

近來深度學習技術的重大進展,往往都需要大量數據來進行訓練。

但是可以給ARES預測的RNA結構只有18種,這些數據顯然不足以使用傳統方法。

斯坦福的科學家們想到了幾何深度學習,開發了ARES(Atomic Rotationally Equivariant Scorer)。

顧名思義,這種方法並非直接針對RNA的特殊情況,而是細化到分子中的原子,參數只給出原子坐標和元素類型。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

ARES被輸入一小組已知RNA的真實結構,以及這些RNA的大量替代(不正確)結構。

在這個過程中,ARES了解每個原子的功能、幾何排列以及這些元素相互之間彼此定位。神經網絡中逐漸從原子級小尺度學習到分子大尺度的特徵。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

就這樣,ARES一開始並不了解RNA,隨着訓練過程的進行,它學會了RNA的鹼基配對模式、RNA螺旋的最佳幾何形狀。

接下來還有個問題,人類已知RNA種類太少,如何去評估ARES的預測未知RNA能力呢?

斯坦福大學的研究人員編製了一個基準數據集,包含七年來在結構預測競賽RNA-Puzzles中獲勝的作品。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

根據RNA-Puzzles的規則,當科學家通過實驗發現新的RNA結構時,他們不會公開細節,直到RNA-Puzzles參與者提交了他們的預測結果,然後將二者的結果進行對比。

經過測試集的檢驗,ARES對4種RNA結構的預測全都達到了最高準確度。

AI預測RNA結構登上Science封面,論文一作已成立藥物公司開始招人

接下來,科學家使用採樣軟件生成了至少1500個RNA結構模型。然後,他們用ARES和其他三種軟件對模型進行預測。

當使用ARES時,有62%結果接近原生RNA模型(平均誤差<2Å),而

Rosetta、RASP和3dRNAscore分別只有43%、33%和5%的結果接近。

在ARES生成的10個最好模型中包括至少一個接近原生模型的有81%,而Rosetta、RASP和3dRNAscore分別只有48%、48%和33%。

雖然ARES還沒有達到能精確預測靶點、輔助藥物研發的精度,但研究人員說,他們的算法還有進步的空間

未來,他們計劃輸入除原子坐標和元素類型之外的更多信息,增加信息或許能進一步提高ARES的性能。

通過與低溫電子顯微鏡等實驗數據結合,ARES也可能得到進一步改進。

另外,本文的第一作者Raphael Townshend已經創立了一家生物學AI公司Atomic AI,使用AI技術設計藥物分子。

Townshend剛剛在個人Twitter上發布了招聘信息,看來他是準備AI藥物領域大展拳腳了。

(0)
上一篇 2021-08-27 15:36
下一篇 2021-08-27 16:13

相关推荐