中國團隊首次將人類全基因組分析縮短至分鐘級此前需要24小時

2021-12-26 16:42 • 熱點資訊

7分鐘，這是來自中國的一支團隊“合力出成績”、一舉打破的世界紀錄：全球首次將人類全基因組分析，推進分鐘級時代。這支團隊，由三家來自中國的機構共同組建。他們這次所做的具體任務，叫做30X人類全基因組測序（WGS）胚系變異分析。

（其中，“30X”是指全基因組測序的深度）

而在這個團隊之前，同等條件下完成這項任務所需的時間，卻長達近24小時之久。

所以咱就是說，現在的“battle”結果就是——24小時 vs 7分鐘，性能整個提升了200多倍！

與此同時，在相同條件下的計算成本還降低了80%，存儲成本也下降30%。

但更重要的一點是，這事可能和你我都息息相關。

因為基因預測的一個用途，就是檢測罹患多種疾病的可能性，鎖定個人病變基因，以此來提前預防和治療。

（P.s.世界著名演員安吉麗娜朱莉就這麼做過。）

聽起來確實是個好事，但如果放到過去，由於既耗時又費錢，能做得起基因預測的人屈指可數。

但今時不如往日，隨着算力、AI、大數據技術的不斷發展和融合，讓基因測序這樣數據密集型應用變得越發親民。

而這一次的“7分鐘”，可以說是把基因測序這件事往“平民時代”更推近了一步。

△圖源：美國國家衛生研究院（NIH）

那麼接下來的問題便是，為什麼這支隊伍的方法，就能做到“快好省”呢？

從24小時到7分鐘，他們是怎麼辦到的？

人類全基因組測序要做的事，就是對未知基因組序列的物種進行個體的基因組測序。

但非常明顯的一個難題，就是其數量過於龐大。

畢竟對象可是組成人體2.5萬基因的約30億鹼基對，換算成容量大小則約為3GB。

但這還不算完，為了保障基因數據的完整性，在此基礎上還需要做30次的平行測試。

如此一來，在最終測序完成之後，全基因組的數據量便將達到約100G。

而且隨着技術的不斷迭代演進，數據的存儲已經從最初的人類基因組開始細分擴展，逐步涉及到腫瘤、遺傳病的檢測等等。

也正是因為數據量和數據種類的日益龐大，使得這方面的工作數據存儲，動輒便以PB為單位來保存。

這就直接影響到了諸如基因採樣、樣本製作、數據下機、生信分析以及后基因測序等環節。

但更為重要的是，諸如基因這樣的數據，隱私安全是非常值得注重的一環，而也正因為數據量的爆髮式增長，使得數據安全管理、存儲和分析變得異常困難。

團隊在面對這些挑戰所選擇的突破口，並不是大多數人以為的強行堆算力，而是用底層數據存儲的飛躍來做到提速。

簡單來說，就是通過把以往不能合併處理的海量數據，打破它們之間的壁障，讓整體的處理效率“更上一層樓”。

具體而言，他們所提出的解決方案便是大規模多組學數據并行加速分析平台。

據介紹，華西醫院在這項工作中主要負責頂層設計，包括多模態組學數據分析和基因應用等。

華為在存儲方面，提供高性能數據存儲和基因數據管理系統的技術支持。

……

而縱觀整個流程，數據存儲的環節最為重要，可以說是貫穿始末：

基因測序階段：存儲系統需要足夠的穩定性，來保障過程不被中斷；

基因數據分析階段：要有足夠處理小文件等任務的能力；

數據歸檔階段：能夠將基因數據長期、安全、完整地保存起來。

由此可見，存儲系統就像是一根“定海神針”，牢牢地把握着海量數據任務的“命脈”。

那麼接下來的一個問題便是——團隊此次能夠打破世界紀錄，它的專屬“定海神針”又是什麼？

世界頂級選手在背後發力

不賣關子，團隊在這項任務中的存儲系統，便是來自華為面向高性能數據分析（HPDA）的分佈式存儲OceanStor Pacific系列。

它是一種可大規模橫向擴展的智能分佈式存儲，可以hold住高性能計算、AI應用、數據庫、大數據分析和海量數據備份歸檔等業務需求。

而OceanStor Pacific之所以能協助團隊在此次任務中打破世界紀錄，是因為它自身就是頭頂“世界頂級選手”光環的那種存儲系統。

在國內範圍來看，更是獨秀一枝，不論是整體、文件存儲、對象存儲還是塊存儲方面，都是穩居市場第一。

而且不僅是市場方面的表現，從性能榜單上來看亦是如此。

這不，就在前不久IO500 （高性能計算領域針對存儲性能最權威世界排行榜之一）發布的最新榜單中，華為存儲HPDA Lab（由華為OceanStor Pacific存儲支撐）位列第二。

那麼問題來了，OceanStor Pacific系列存儲憑什麼？

從官方對它的介紹中，我們挖到了一條線索，那便是“新一代”：

這個“新”，可以總結為三個方面。

首先是超高密設計。

以OceanStor Pacific 9950為例，它具備單框8節點，5U、80盤位的特性。

而之所以能如此“能裝”，是因為它將各種SSD（固態硬盤）都設計的非常小巧：

另外一款5U、120盤位的OceanStor Pacific 9550，更是能夠達到單框最大可提供2.4PB的裸容量。

如此超高密度的設計，便可以支撐海量數據的存儲。

基於這樣的硬件設計之下，便是華為存儲的第二個特性——“多到一，一到多”，具體來講就是：

多套存儲變一套，一套存儲支持多樣化算力。

導致這樣做的原因，根本上是高性能存儲面臨的負載類型越發複雜多樣。

傳統的做法就是來一個負載類型，就部署一個對應類型的存儲；但這樣做的結果，就是容易產生“孤島現象”，而且不利於提高整體的效率。

而理想的狀態就是存儲系統可以滿足一個“既要又要”——高帶寬、高IOPS。

（帶寬型方面的衡量標準是單位時間內的數據總吞吐量；而IOPS則是單位時間內能處理的總的IO請求量、以及每個IO的處理時延。）

對此，華為存儲所採用的策略就有點“隨機應變”的味道了。

例如存儲系統在面對大文件時，就對應“大I/O”，採用直通方式將數據寫到磁盤。

這樣做的結果，就讓大文件的寬帶處於業界2倍的水平。

而當與之相對的小文件到來時，就對應“小I/O”，主要是將數據聚合后寫到磁盤：

如此一來，就可以在理想的時延下提升磁盤空間的利用率，而且小文件的隨機性能也達到了業界的5倍。

OceanStor Pacific系列存儲的第三個獨特性，便是打通協議的“任督二脈”。

華為存儲提出這個特性的大背景，是因為現在在處理諸如基因測序這樣的任務時，數據往往會呈現多種格式，例如文件、對象、大數據等等。

也正因如此，以往在整個數據處理過程中，單是數據轉化、拷貝、加載這樣的工作就佔到了35%的時間。

於是，為了這方面的提高效率，就需要新的“協議互通”技術。

而這種新技術並不是指“共池”，在本質上是有着很大的區別。

“共池”主要共享硬件資源池，是在一套硬件上劃分出多個獨立的邏輯資源池，並根據不同的數據類型做部署。

但問題在於每個邏輯資源池只支持一種協議訪問，也就是說跨協議的時候，還是需要經過“數據拷貝”的過程：

華為存儲提出的“協議互通”技術則不然，實現的是多個協議共用一個硬件資源池。

而且還是同時支持文件、對象、大數據等多種協議訪問的那種：

換言之，現在當一份數據“走進”存儲系統后，不再需要做任何的轉換了，可以直接被其它協議直接訪問。

這便是打通協議“任督二脈”的奧義所在了。

而也正是因為剛才講到的這些獨有“功夫”，華為存儲，這個世界級選手所涉足的領域早已不僅限於基因測序。

還有眾多諸如此類的海量數據場景，例如能源勘探、氣象海洋、智能製造、超算中心等等。

……

不難看出，華為在數據存儲這一塊，可謂是內修功法、外用其力。

那麼最後一個問題便是：

數據存儲，為什麼這麼重要？

因為一個非常明顯的趨勢是：

在智能時代之下，數據存儲已經成為數據密集型應用的瓶頸。

或許你會說，數據量大，哪怕是PB級別，把算力堆上去不就可以了嗎？

確實，在過去一段時間裡，在處理像基因測序、生物製藥等數據密集型應用時，大家似乎都會關注其背後的高性能計算（HPC）的效果如何。

每年的HPC Top 500 高性能計算機排行榜，也成為公眾備受關注的“保留節目”。

但隨着數據爆髮式的增長，以及AI技術的不斷推陳出新，數據密集型應用的發展不再僅僅聚焦在算力方向。

正如IDC所統計的那般：

全球67%的高性能計算中心已經在使用AI、大數據相關技術。

換言之，HPC、AI和大數據，它們三個融合的速度正在加快。

也正因如此，數據密集型應用正在步入一個新的時代—— 高性能數據分析 （HPDA）。

在這個時代之下，類似自動駕駛、基因測序等任務，對於數據分析的實時性要求越來越高。

而要實現這一點，也正如剛才我們所闡述的，離不開“數據存儲系統”這一夯實的底座。

唯有這根“定海神針”足夠穩固、紮實，且需得具備技術上的創新，才能保證其上層的工作以及上層與之的交互暢通無阻。

但比起應用方面的絲滑，通過推進新一代存儲系統（即HPDA）來進一步發展數據密集型應用，這件事還具有更深遠的意義。

例如油氣地震勘探也在進入海量數據時代，需要採用大量的高性能計算和大數據分析技術。

但痛點也正如剛才我們提到的，其間的任務絕不是單一的，所產生的數據類型、結構也是紛繁複雜。

而通過新一代存儲系統的優勢，就可以做到規模化統一部署，以此來提高整體流程的效率。

再如超算中心、智能醫療、自動駕駛，甚至是宇宙探測等，均是需要HPDA的能力來完成對海量數據的高效分析。

這些亟需注入“新力量”的領域，恰恰正是科技、經濟強國所發力的地方。

從另一種角度來看，新一代數據存儲正在成為國家的關鍵基礎設施，堪稱“國之重器”。

而華為OceanStor Pacific系列存儲，無論是從市場份額、技術實力排名等等，均已成為國產新一代數據存儲系統中的不二之選。

但比起亮眼的成績，在最重要的實際行動方面，華為OceanStor Pacific系列存儲也已經是處於“進行時”了。

至於接下來在HPDA時代中，新一代數據存儲的技術進步還將結出怎樣的碩果，是值得拭目以待了。

分鐘團隊基因組

赞 (0)

三星西安閃存製造工廠本周五已進入緊急運營狀態

上一篇 2021-12-26 16:42

NASA韋伯太空望遠鏡已完成時間關鍵性的中途校正機動

下一篇 2021-12-26 16:42

熱點資訊

如何科學的把速食拉麵做出新鮮拉麵的口感？

北京時間9月9日消息，據國外媒體報道，速食拉麵或許可以迅速趕走飢餓，但它們和真正的拉麵一點都不像。然而，食品科學家可以通過一個新的步驟——冷凍——使速食拉麵更接近餐館里的手工麵條。…

2021-09-09
熱點資訊

《疾速追殺4》新片場照西裝暴徒基努現身

近日（10月11日），英國《每日郵報》公布了《疾速追殺4》新片場照，西裝暴徒版進度造型基努·里維斯現身，伊恩·麥柯肖恩飾演的大陸酒店BOSS溫斯頓也一同亮相。《疾速追殺4》由查德…

2021-10-11
熱點資訊

輝瑞預計COVID-19大流行將持續至2024年

新冠“大流行”將在全球的一些地區繼續持續1-2年，到2024年，新冠疾病預計將會在全球範圍內可控，成為某些地區的常態化流行病。新冠“奧密克戎”變異株在全球蔓延給疫情帶來巨大的不確定…

2021-12-18
熱點資訊

谷歌助力SpaceX 下半年面向企業推出“星鏈”互聯網服務

谷歌今日宣布，其雲部門已贏得一份合同，向埃隆·馬斯克（Elon Musk）旗下太空探索技術公司SpaceX提供計算和網絡資源，以幫助SpaceX通過其“星鏈”（Starlink）衛…

2021-05-13
熱點資訊

互聯網財險將迎新規不得向網絡平台變相支付畸高手續費

互聯網財險保險即將迎來新的監管規定。《證券日報》記者從業內人士了解到，銀保監會近日向各財產險公司下發《關於加強和改進互聯網財產保險業務監管有關事項的通知（徵求意見稿）》（以下簡稱《…

2021-09-14
熱點資訊

研究人員開發出一種能用等離子滅殺中耳炎細菌的實驗性設備

據外媒報道，中耳的細菌感染相當常見，尤其是在兒童中，但它們卻很難治療。一種實驗性的新設備已經被設計出來，它可以通過等離子殺滅這種細菌。通常情況下，這類感染採用的是局部抗生素療法。然…

2021-06-30
熱點資訊

研究人員為陶瓷等材質開發出一種聚合物軟殼以防止其破碎

陶瓷在電子產品和其他設備中正變得越來越普遍。任何曾經摔過陶瓷板的人都知道，雖然這種材料可以經受住熱度，而且經久耐用，但當它碰到堅硬的物體表面時往往會碎裂。萊斯大學的研究人員已經開發…

2021-07-08
熱點資訊

《極主夫道》真人電影新劇照公開 6月3日上映

根據人氣漫畫改編，曾被網飛製作成電視劇以及動畫，《極主夫道》真人電影即將於6月3日上映，5月8日今天是母親節，官方公開了最新劇照，展示了作品中的向日葵的“母親“美久的場景，一起來先…

2022-05-08
熱點資訊

波蘭將為免疫力低下者接種新冠疫苗加強針

當地時間8月28日，波蘭政府宣布將為免疫功能較低的人群接種新冠疫苗加強針，接種時間將從9月1日開始。波蘭衛生部長涅傑爾斯基在新聞發布會上表示，醫務人員將根據每人的身體狀況來決定是否…

2021-08-29
熱點資訊

《賽博朋克2077》1.23版分析 XSX下仍然有性能問題

《賽博朋克2077》自發售以來，主機上存在的未優化代碼導致出現了大量的bug和漏洞。在發售七個月之後，看起來仍然有很多問題需要被解決，甚至次世代主機也是非常勉強地維持目標幀數。外…

2021-08-08