中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

7分鐘,這是來自中國的一支團隊“合力出成績”、一舉打破的世界紀錄:全球首次將人類基因組分析,推進分鐘級時代。這支團隊,由三家來自中國的機構共同組建。他們這次所做的具體任務,叫做30X人類全基因組測序(WGS)胚系變異分析

(其中,“30X”是指全基因組測序的深度)

而在這個團隊之前,同等條件下完成這項任務所需的時間,卻長達近24小時之久。

所以咱就是說,現在的“battle”結果就是——24小時 vs 7分鐘,性能整個提升了200多倍!

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

與此同時,在相同條件下的計算成本還降低了80%,存儲成本也下降30%

但更重要的一點是,這事可能和你我都息息相關。

因為基因預測的一個用途,就是檢測罹患多種疾病的可能性,鎖定個人病變基因,以此來提前預防和治療。

(P.s.世界著名演員安吉麗娜朱莉就這麼做過。)

聽起來確實是個好事,但如果放到過去,由於既耗時又費錢,能做得起基因預測的人屈指可數。

但今時不如往日,隨着算力、AI、大數據技術的不斷發展和融合,讓基因測序這樣數據密集型應用變得越發親民。

而這一次的“7分鐘”,可以說是把基因測序這件事往“平民時代”更推近了一步。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

圖源:美國國家衛生研究院(NIH)

那麼接下來的問題便是,為什麼這支隊伍的方法,就能做到“快好省”呢?

從24小時到7分鐘,他們是怎麼辦到的?

人類全基因組測序要做的事,就是對未知基因組序列的物種進行個體的基因組測序。

但非常明顯的一個難題,就是其數量過於龐大

畢竟對象可是組成人體2.5萬基因的約30億鹼基對,換算成容量大小則約為3GB

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

但這還不算完,為了保障基因數據的完整性,在此基礎上還需要做30次的平行測試。

如此一來,在最終測序完成之後,全基因組的數據量便將達到約100G

而且隨着技術的不斷迭代演進,數據的存儲已經從最初的人類基因組開始細分擴展,逐步涉及到腫瘤、遺傳病的檢測等等。

也正是因為數據量和數據種類的日益龐大,使得這方面的工作數據存儲,動輒便以PB為單位來保存。

這就直接影響到了諸如基因採樣、樣本製作、數據下機、生信分析以及后基因測序等環節。

但更為重要的是,諸如基因這樣的數據,隱私安全是非常值得注重的一環,而也正因為數據量的爆髮式增長,使得數據安全管理、存儲和分析變得異常困難。

團隊在面對這些挑戰所選擇的突破口,並不是大多數人以為的強行堆算力,而是用底層數據存儲的飛躍來做到提速。

簡單來說,就是通過把以往不能合併處理的海量數據,打破它們之間的壁障,讓整體的處理效率“更上一層樓”。

具體而言,他們所提出的解決方案便是大規模多組學數據并行加速分析平台

據介紹,華西醫院在這項工作中主要負責頂層設計,包括多模態組學數據分析和基因應用等。

華為在存儲方面,提供高性能數據存儲和基因數據管理系統的技術支持。

……

而縱觀整個流程,數據存儲的環節最為重要,可以說是貫穿始末:

基因測序階段:存儲系統需要足夠的穩定性,來保障過程不被中斷;

基因數據分析階段:要有足夠處理小文件等任務的能力;

數據歸檔階段:能夠將基因數據長期、安全、完整地保存起來。

由此可見,存儲系統就像是一根“定海神針”,牢牢地把握着海量數據任務的“命脈”。

那麼接下來的一個問題便是——團隊此次能夠打破世界紀錄,它的專屬“定海神針”又是什麼?

世界頂級選手在背後發力

不賣關子,團隊在這項任務中的存儲系統,便是來自華為面向高性能數據分析(HPDA)的分佈式存儲OceanStor Pacific系列。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

它是一種可大規模橫向擴展的智能分佈式存儲,可以hold住高性能計算、AI應用、數據庫、大數據分析和海量數據備份歸檔等業務需求。

而OceanStor Pacific之所以能協助團隊在此次任務中打破世界紀錄,是因為它自身就是頭頂“世界頂級選手”光環的那種存儲系統。

在國內範圍來看,更是獨秀一枝,不論是整體、文件存儲、對象存儲還是塊存儲方面,都是穩居市場第一。

而且不僅是市場方面的表現,從性能榜單上來看亦是如此。

這不,就在前不久IO500 (高性能計算領域針對存儲性能最權威世界排行榜之一)發布的最新榜單中,華為存儲HPDA Lab(由華為OceanStor Pacific存儲支撐)位列第二。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

那麼問題來了,OceanStor Pacific系列存儲憑什麼?

從官方對它的介紹中,我們挖到了一條線索,那便是“新一代”

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

這個“新”,可以總結為三個方面。

首先是超高密設計

以OceanStor Pacific 9950為例,它具備單框8節點,5U、80盤位的特性。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

而之所以能如此“能裝”,是因為它將各種SSD(固態硬盤)都設計的非常小巧:

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

另外一款5U、120盤位的OceanStor Pacific 9550,更是能夠達到單框最大可提供2.4PB的裸容量。

如此超高密度的設計,便可以支撐海量數據的存儲。

基於這樣的硬件設計之下,便是華為存儲的第二個特性——“多到一,一到多”,具體來講就是:

多套存儲變一套,一套存儲支持多樣化算力。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

導致這樣做的原因,根本上是高性能存儲面臨的負載類型越發複雜多樣。

傳統的做法就是來一個負載類型,就部署一個對應類型的存儲;但這樣做的結果,就是容易產生“孤島現象”,而且不利於提高整體的效率。

而理想的狀態就是存儲系統可以滿足一個“既要又要”——高帶寬、高IOPS。

(帶寬型方面的衡量標準是單位時間內的數據總吞吐量;而IOPS則是單位時間內能處理的總的IO請求量、以及每個IO的處理時延。)

對此,華為存儲所採用的策略就有點“隨機應變”的味道了。

例如存儲系統在面對大文件時,就對應“大I/O”,採用直通方式將數據寫到磁盤。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

這樣做的結果,就讓大文件的寬帶處於業界2倍的水平。

而當與之相對的小文件到來時,就對應“小I/O”,主要是將數據聚合后寫到磁盤:

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

如此一來,就可以在理想的時延下提升磁盤空間的利用率,而且小文件的隨機性能也達到了業界的5倍。

OceanStor Pacific系列存儲的第三個獨特性,便是打通協議的“任督二脈”

華為存儲提出這個特性的大背景,是因為現在在處理諸如基因測序這樣的任務時,數據往往會呈現多種格式,例如文件、對象、大數據等等。

也正因如此,以往在整個數據處理過程中,單是數據轉化、拷貝、加載這樣的工作就佔到了35%的時間。

於是,為了這方面的提高效率,就需要新的“協議互通”技術。

而這種新技術並不是指“共池”,在本質上是有着很大的區別。

“共池”主要共享硬件資源池,是在一套硬件上劃分出多個獨立的邏輯資源池,並根據不同的數據類型做部署。

但問題在於每個邏輯資源池只支持一種協議訪問,也就是說跨協議的時候,還是需要經過“數據拷貝”的過程:

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

華為存儲提出的“協議互通”技術則不然,實現的是多個協議共用一個硬件資源池。

而且還是同時支持文件、對象、大數據等多種協議訪問的那種:

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

換言之,現在當一份數據“走進”存儲系統后,不再需要做任何的轉換了,可以直接被其它協議直接訪問。

這便是打通協議“任督二脈”的奧義所在了。

而也正是因為剛才講到的這些獨有“功夫”,華為存儲,這個世界級選手所涉足的領域早已不僅限於基因測序。

還有眾多諸如此類的海量數據場景,例如能源勘探、氣象海洋、智能製造、超算中心等等。

……

不難看出,華為在數據存儲這一塊,可謂是內修功法、外用其力。

那麼最後一個問題便是:

數據存儲,為什麼這麼重要?

因為一個非常明顯的趨勢是:

在智能時代之下,數據存儲已經成為數據密集型應用瓶頸

或許你會說,數據量大,哪怕是PB級別,把算力堆上去不就可以了嗎?

確實,在過去一段時間裡,在處理像基因測序、生物製藥等數據密集型應用時,大家似乎都會關注其背後的高性能計算(HPC)的效果如何。

每年的HPC Top 500 高性能計算機排行榜,也成為公眾備受關注的“保留節目”。

但隨着數據爆髮式的增長,以及AI技術的不斷推陳出新,數據密集型應用的發展不再僅僅聚焦在算力方向。

正如IDC所統計的那般:

全球67%的高性能計算中心已經在使用AI、大數據相關技術。

換言之,HPC、AI和大數據,它們三個融合的速度正在加快。

也正因如此,數據密集型應用正在步入一個新的時代—— 高性能數據分析 (HPDA)。

在這個時代之下,類似自動駕駛、基因測序等任務,對於數據分析的實時性要求越來越高。

而要實現這一點,也正如剛才我們所闡述的,離不開“數據存儲系統”這一夯實的底座。

唯有這根“定海神針”足夠穩固、紮實,且需得具備技術上的創新,才能保證其上層的工作以及上層與之的交互暢通無阻。

但比起應用方面的絲滑,通過推進新一代存儲系統(即HPDA)來進一步發展數據密集型應用,這件事還具有更深遠的意義。

例如油氣地震勘探也在進入海量數據時代,需要採用大量的高性能計算和大數據分析技術。

但痛點也正如剛才我們提到的,其間的任務絕不是單一的,所產生的數據類型、結構也是紛繁複雜。

而通過新一代存儲系統的優勢,就可以做到規模化統一部署,以此來提高整體流程的效率。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

再如超算中心、智能醫療、自動駕駛,甚至是宇宙探測等,均是需要HPDA的能力來完成對海量數據的高效分析。

這些亟需注入“新力量”的領域,恰恰正是科技、經濟強國所發力的地方。

從另一種角度來看,新一代數據存儲正在成為國家的關鍵基礎設施,堪稱“國之重器”。

中國團隊首次將人類全基因組分析縮短至分鐘級 此前需要24小時

而華為OceanStor Pacific系列存儲,無論是從市場份額、技術實力排名等等,均已成為國產新一代數據存儲系統中的不二之選。

但比起亮眼的成績,在最重要的實際行動方面,華為OceanStor Pacific系列存儲也已經是處於“進行時”了。

至於接下來在HPDA時代中,新一代數據存儲的技術進步還將結出怎樣的碩果,是值得拭目以待了。

(0)
上一篇 2021-12-26 16:42
下一篇 2021-12-26 16:42

相关推荐