以前要24小時的基因組測序中國團隊只用了7分鐘

2022-01-02 08:16 • 熱點資訊

一到年關，最不缺的就是各種盤點總結了。這不，中國機構實現了 7 分鐘完成 30X 測序深度人類全基因組測序的成績，時隔 3
個月又被提了起來。聽不懂沒關係，我們只需要知道，這個成就意味着基因篩查將有可能進入常規體檢項，遺傳病檢查也可能像咽拭子檢測一樣立等可取了。

比如鐮刀型貧血症、先天性心臟病等所有由於基因異常引起的疾病，都可以通過基因檢測的方式早發現早預防早治療，特別是在生育健康方面意義重大。

但是目前的基因檢查項目大多隻針對常見遺傳病做篩查，一些罕見的遺傳病很難被檢測到。並且檢測機構出具報告一般都需要 20 天以上，檢測項目周期太長。

華大醫學單基因遺傳病檢測的部分項目。▼

中國團隊把人類全基因組測序所需要的時間，直接壓縮到了 7 分鐘，相當於給生物學界開通了一輛和諧號，得到生物的全部遺傳信息，那都是分分鐘的事。

想知道 7 分鐘的意義有多大，那就先來搞清楚全基因組測序是什麼吧。

基因測序就是把 DNA 信息轉換成人類可讀取的數字信息過程，而全基因組測序，就是把生物的所有 DNA 信息全部轉化為數字信息。

讀取一整條 DNA 鏈的鹼基排列信息，不僅速度慢，而且很容易出錯。在實際操作過程中，DNA 長鏈會被切割成許許多多的小片段並同時進行測序，這樣可以大大減少測序時間。

雖然小片段序列信息的獲取更快更容易，但是這也帶來了一個新難題，如何把這些小片段正確拼接還原成完整序列？

玩過拼圖的人都知道，判斷兩塊零片是不是相鄰位置，需要參考它們的圖案有沒有很好地吻合在一起。

拼接 DNA 片段也一樣，兩條片段是不是相鄰位置，要看它們末端的序列能不能完全重疊。

只要兩條序列首尾兩端分別存在相同的序列，這兩段序列就可以合併成一段。

當然了，這是運氣好的情況，兩段相鄰片段可以順利找得出來。如果運氣不好的話，在某一處斷點就有可能找不到和它吻合的片段。

為了保證測序片段能夠覆蓋整個基因序列，常用的手段只有以量取勝。把十幾倍幾十倍的片段往模版里填，如果還存在填不上空的情況就該去買彩票了。

但是片段數量的翻倍直接導致的後果就是拼接工作量的指數增加，畢竟拼 1000 塊拼圖花費的時間可不止是 100 塊拼圖的十倍。

這個工作量有多大呢？我們放在具體的測序案例中計算一下。

以人類全基因組測序為例，人類有 23 對染色體共 3.2Gb 鹼基對數據，一般測序的片段大小會選擇在 150-350bp 範圍內，也就是說，對人類基因組測序至少需要處理 10000000 的片段數量。

而為了提高測序準確率和覆蓋度，片段的序列數據一般會遠超基因組數據。比如常用的 30X 測序深度，測序得到的總數據達到了基因組數據的 30 倍，序列數量大約增加到了 300000000 段。

粗略估算一下，數據讀取 300000000 次才能組裝好一對小片段，第二次組裝則需要至少再讀取 150000000 次，以此類推。

對數據讀取次數有了概念，我們再換算一下數據的內存佔用量。據不準確計算，1bp 鹼基大概佔用 3B 內存，那麼 30X 測序深度的人類全基因組大概需要佔用接近 300GB 內存。

別說讀取分析數據了，光是存起來就足夠把計算機搞死機了，所以這樣的任務一般都交給專業測序公司強大的服務器來做。而業界目前的水平，完成人類全基因組的拼接至少需要 24 個小時。

這樣一對比， 7 分鐘能完成 24 小時的海量數據處理工作，確實強得一批。難道是超級 CPU 出現了？

CPU 還是那些 CPU，不過是有新的數據處理方式出現了。

我們把數據讀寫看作是往倉庫里運包裹，大大小小各種包裹都要往裡裝，無論物件大小全部按順序擺放的方式，不僅搬運效率低，空間利用率也不高。

正確的方法是將小包裹收納打包進大箱子，再和其他大包裹一起順序擺放，不僅提高了整體的空間利用率，也縮減了搬運時間。

這就是 7 分鐘辦完 24 小時工作的原因之一，大數據直接寫入，小文件聚合成大文件再寫入，不僅存得快，還存得多。

海量數據秒處理的另一個秘訣就是 “ 天下大同 ” 。

通常情況下，不同類型的數據互相不認識，需要藉助單獨的協議進行私密對話，調用上不太方便。

想提高數據的調用效率，那就讓它們都來廣場上喊話好了，露天場地找人總比在小區里挨家挨戶找人要快得多。

只要打破不同數據間的加解密邏輯，使用統一的數據訪問協議，免去加載過程，就可以實現對磁盤內所有數據的快速調用。

除了這兩項突破性的數據處理方式，一些硬件軟件上的加強也促成了這項 7 分鐘的成就。

比如說壓縮磁盤大小，改造服務器結構，用相同體積放置更多數量的固態硬盤，實現更大容量的數據存儲功能。

另外該平台還開發出了多線操作的數據讀寫模式，能夠把處理數據的速度再提升一級；並且還改進了數據壓縮算法，能夠以更小的磁盤容量處理更多的數據。

種種創新技術的強強聯合實現了海量數據分析 24 小時到 7 分鐘的飛躍。連天文數字規模的生物信息都能在幾分鐘時間內進行處理，還有什麼做不到的呢。

這個 7 分鐘的意義不僅僅是快速獲得全部基因信息，也是數據處理領域中十分重要的一項突破。

類似一些需要精密計算並且數據量龐大的應用領域，用上中國自己的服務器來處理，又快又安全。

例如衛星遙感，藥物研發，能源勘測等，都需要對海量數據進行分析；而自動駕駛之類的技術則要求了數據的實時反饋，數據的高速運算處理能力必不可少。

換句話說，馴服了數據就相當於把握住了科技命脈，得數據者得天下。依附在這個基礎上的所有領域，都得鉚足了勁再卷一波。

說不定，一直以來磕磕絆絆的 AR 眼鏡，很快就可以普及了。

檢測測序遺傳病

赞 (0)

科學家們發現大黃蜂條紋的進化基因途徑

上一篇 2022-01-02 08:16

索尼為PS5手柄新觸覺反饋系統申請專利

下一篇 2022-01-02 08:16

熱點資訊

純電版寶馬3系最新諜照將於2022年發布

日前，有海外媒體曝出一組純電動版寶馬3系車型的路試諜照。在寶馬集團的電氣化推動計劃中，純電動版3系將作為電氣化進程中最重要的一款車型出現，它將是繼i4以及iX之後，寶馬集團新能源產…

2021-06-17
熱點資訊

長十一發射成功我國首次實現運載火箭海上“一站式”發射

4月30日11時30分，長征十一號運載火箭在我國黃海南部海域，以“一箭五星”方式托舉吉林一號高分系列衛星點火升空，隨後衛星被順利送入預定軌道，發射取得圓滿成功。這是我國首次實現運載…

2022-04-30
熱點資訊

12代酷睿i9遊戲本全球首測：57％優勢領先上代銳龍9

CES 2022大會上，Intel、AMD都發布了新一代%ignore_a_1%移動平台，但新本上市還要一段時間，上手評測也還得等等。近日，PCWorld有機會率先體驗了Intel…

2022-01-17
熱點資訊

改寫基因治癒心臟病等來了終極答案

與癌症不同，很多疾病似乎帶着更容易被接受的隱形外衣，用可控制性和相對較低的死亡危險蟄伏在人群中。父母們常常掛在嘴邊、身邊常備的降壓藥、降脂葯我們均不陌生。他們都針對一種因體內不良脂…

2022-07-14
熱點資訊

聯電：半導體結構問題短期難解產能供不應求或到 2023 年

集微網消息，聯電認為，市場需求成長幅度遠大於產能增加的速度，這個結構性問題難以在短期獲得解決，半導體產能供不應求情況可能會延續到 2023 年。據台媒經濟日報報道，聯電今天召開股東…

2021-07-07
熱點資訊

iFixit稱蘋果的DIY維修計劃使MacBook反而看起來不那麼好修

蘋果公司本周將其自助維修計劃擴大到配備M1系列芯片的MacBook Air和MacBook Pro機型，為美國的客戶提供選擇零件、手冊和工具來維修筆記本。雖然該計劃的擴大對維修權運…

2022-08-24
熱點資訊

美聯邦和州監管機構正在對特斯拉Autopilot的安全施加壓力

特斯拉在其Autopilot高級駕駛輔助系統的安全性和功能方面正受到美國聯邦和州監管機構的批評。當地時間周四，美國國家公路交通安全管理局(NHTSA)要求特斯拉回答有關其座艙攝像頭…

2022-08-19
新Google Wallet現已向所有用戶開放

在39個國家的人們周一開始在他們的手機上看到新Google Wallet應用后不久，所有客戶現在都可以使用。Google Wallet的正式推出是Google支付應用變化的漫長歷史…

熱點資訊 2022-07-21
熱點資訊

[視頻]跌落測試表明iPhone 14 Plus比iPhone 14 Pro Max更耐摔

設備保險公司 Allstate 近日對 iPhone 14 Plus 和 iPhone 14 Pro Max 兩款設備進行了跌落測試。本次測試是通過 Dropbot 完成的，該機器…

2022-10-19
熱點資訊

豐田章男用毛筆寫下年度漢字“動” 中日文一語雙關

中國作為豐田在全球第二大的市場，豐田汽車董事長豐田章男對中國自然是非常重視。豐田章男此前表示，每年都會寫下一副書法，作為其“年度漢字”。今日，豐田章男在微博表示，寫下來今年新春的第…

2022-01-18