一個咖啡杯裝下全世界的數據 DNA存儲芯片神奇在哪?

我們正處於數據爆炸的時代,全球數據量呈指數級增長!國際數據機構 IDC 預測,2025 年,全球數據量將達到 175ZB,5 年平均複合增長率
8%。1ZB 等於 1 萬億 GB,如果 175ZB 數據用容量 1GB 的移動硬盤來裝,至少需要 175
萬億個硬盤。在未來,數據存儲問題將成為互聯網發展的痛點。

為了解決數據存儲這一難題,受生物學的啟發,研究人員瞄準了人體內的 DNA。

最大的人類染色體含有近 2.5 億個鹼基對,如果每個鹼基對上都能存儲數據,理論上,麻省理工學院生物工程教授 Mark Bathe 說,一個裝滿 DNA 的咖啡杯就可以存儲世界上所有的數據。這樣看來,存儲 175ZB 的數據也就不在話下了。

這樣一個前景可觀的新興存儲技術,在今年 3 月被寫進“十四五”規劃綱要草案中。不僅如此,2021 年層出不窮的相關研究及落地進展,令 DNA 存儲技術愈發受到關注。

例如 1 月 11 日,Nature 子刊上發表了哥倫比亞大學將 hello world 翻譯成鹼基語言錄入大腸桿菌 DNA 的相關論文;5 月 26 日,由中科院深圳先進技術研究院孵化的中科碳元成立,專註於推進 DNA 數據存儲研發及商業化;11 月 12 日,東南大學劉宏團隊將校訓“止於至善”寫進 DNA 的論文發表於 Science Advances;11 月 24 日,微軟公布首個納米級 DNA 存儲寫入器……

需要注意的是,廣義上的 DNA 芯片是基因組學和遺傳學研究的工具,指在固相支持物上原位合成寡核苷酸或者直接將大量預先製備的 DNA 探針以顯微打印的方式有序地固化於支持物表面,然後與標記的樣品雜交。因為其支持物表面常是計算機芯片,因此稱其為 DNA 芯片。

DNA 芯片類型多樣,包括檢測基因、染色體或用於臨床診斷用的芯片,而其中模仿 DNA 分子結構進行數據存儲的是我們今天討論的重點,也就是 DNA 存儲芯片。

01. 鹼基與二進制對應,人手長的 DNA 鏈可存儲 10 億 G 數據

從遠古石牆上刻的圖案到文字的出現,再到最重要的信息載體書籍的產生,我們產生的信息其實並不多。但自從進入信息時代,人類在過去 50 年裡記錄的信息已經遠遠超過過去 2000 年的信息。

我們處在信息爆炸的大數據時代,所有互聯網中的信息都作為數據保存下來,從網頁、應用程序到安防、衛星領域應有盡有。

根據國際數據組織 IDC 的數據,2013 年至 2015 年全球大數據存儲量分別為 4.3ZB、6.6ZB、8.6ZB,增速維持在 40% 左右,而到 2016 年全球大數據存儲量達到 16.1ZB,增長率達到 87.21%。2017 年至 2019 年全球大數據存儲量分別為 21.6ZB、33ZB、41ZB,2020 年全球數據量達到了 60ZB。在大數據領域不斷發展的同時,為了滿足海量的數據存儲需求,存儲方式也在不斷發生變化。

一個咖啡杯裝下全世界的數據 DNA存儲芯片神奇在哪?

▲ IDC 監測 2015-2020 年全球數據量變化趨勢以及 2025 年預測

DNA 是儲存遺傳信息的載體,攜帶有合成 RNA 和蛋白質所必需的遺傳信息,它可以對生物的所有信息進行編碼。

上世紀 50 年代,就有研究人員發現了生物特徵和人造物體的關係。DNA 分子由四種鹼基組成,數據由二進制 0 和 1 組成;DNA 用來儲存遺傳信息,數據正好需要一個介質存儲,由此蘇聯物理學家米哈伊爾・薩莫伊洛維奇・內曼(Mikhail Samoilovich Neiman)想到,是否可以參考 DNA 結構來存儲數據?

與傳統的存儲介質不同,DNA 存儲技術有如下顯著優勢。

首先是 DNA 存儲密度高。一個 DNA 分子可以保留一個物種的全部遺傳信息,最大的人類染色體含有近 2.5 億個鹼基對,那麼就意味着一條和人手差不多長的 DNA 鏈,就可以存儲 1EB(1EB=10.74 億 G)數據。

與硬盤和閃存的數據存儲密度相比,硬盤存儲每立方厘米約為 1013 位,閃存存儲約為 1016 位,而 DNA 存儲的密度約為 1019 位。

其次是 DNA 分子存儲具有穩定性。今年 2 月,國際頂級學術期刊 Nature 上的一篇論文稱古生物學家在西伯利亞東北部的永久凍土層中提取到距今 120 萬年猛獁象的遺傳物質,並對其 DNA 進行了解析,這也進一步刷新了 DNA 分子的保存年代紀錄。

據悉,DNA 至少可保留上百年的數據,相比之下,硬盤、磁帶的數據最多只能保留約 10 年。

最後,DNA 存儲維護成本低。以 DNA 形式存儲的數據易於維護,和傳統的數據中心不同,不需要大量的人力、財力投入,僅需要保存在低溫環境中。

在能耗方面,1GB 的數據硬盤存儲能耗約為 0.04W,而 DNA 存儲的能耗則小於 10-10W。

02. 低成本擴大規模 可放置數百萬個 DNA 序列

上個世紀 50 年代,科學家已經提出創建人造物體與微觀世界的生物特徵相似的想法,並且認為該人造物體將具有更加廣泛的能力。不到十年,蘇聯物理學家米哈伊爾・薩莫伊洛維奇・內曼(Mikhail Samoilovich Neiman)就獨立提出了可以利用 DNA 和 RNA 分子來進行信息記錄、存儲和檢索的可能性。

DNA 進行數據存儲的應用真正開始於 1988 年,藝術家喬戴維斯和哈佛大學的研究人員合作,在大腸桿菌的 DNA 序列中,將一張代表生命和女性地球的古代日耳曼符文圖片,通過 5×7 的矩陣存儲到 DNA 序列中。他們用二進制中的 1 代表圖片中的暗像素,0 代表圖片中的亮像素。

在之後的研究中,研究人員提出了多種 DNA 存儲的編碼方式。2011 年,研究團隊對一本 659KB 的書籍進行編碼,通過一對一對應,由腺嘌呤或胞嘧啶表示二進制中的 0,鳥嘌呤或胸腺嘧啶表示 1。然而,最後研究人員檢查數據存儲結果時發現,在 DNA 中出現了 22 個錯誤。這種一一對應的編碼方式的精度較低。

DNA 是由四種鹼基結合成鹼基對,並組成螺旋結構。四種鹼基分別是腺嘌呤(A)、胸腺嘧啶(T)、鳥嘌呤(G)、胞嘧啶(C),然後依據鹼基互補配對原則,來排列 DNA 分子儲存遺傳信息。這四個代碼也為 DNA 存儲芯片提供了一個合適的編碼環境。

一個咖啡杯裝下全世界的數據 DNA存儲芯片神奇在哪?

▲ DNA 分子結構示意圖

DNA 存儲技術包括信息編碼、存儲、檢索、解碼四個步驟。在計算機中,數據存儲需要用二進制 0 和 1 來表示,使用 DNA 來存儲數據首先需要將 0 和 1 轉化為 DNA 中的四個鹼基 A、C、T、G,創建具有正確鹼基序列的 DNA 螺旋結構。合成 DNA 后在體內或體外進行存儲。在解碼時,DNA 測序儀會轉錄該 DNA 結構中的鹼基序列,通過解碼軟件將其轉化為 0 和 1,還原數據信息。

2012 年,哈佛大學的研究團隊證實,DNA 可以作為一種和硬盤驅動器、磁帶類似的存儲介質。他們通過 DNA 對數字信息進行編碼,包括 53400 字節的 HTML 草稿,11 張 JPG 圖片和一個 JavaScript 程序,利用位與鹼基一對一映射,但這種方式會使得相同鹼基長時間運行,測序過程容易出錯。

這種簡單的一對一編碼形式,在 2013 年得到了突破。歐洲生物信息學研究所(EBI)的研究人員在論文中稱,他們已經實現了超過 500 萬位數據的存儲、檢索和複製,並且所有 DNA 文件都以 99.99% 到 100% 的準確度再現了信息。在編碼過程中,研究小組加入了糾錯編碼方案,並採用了可通過序列識別的重疊短寡核苷酸的編碼方式。

此後,哥倫比亞大學、華盛頓大學、帝國理工學院等研究團隊都開展了一系列研究。

為了證明 DNA 編碼數據的長期穩定性,2015 年 2 月 4 日,蘇黎世聯邦理工學院的研究人員在國際頂級期刊 Angewandte Chemie International Edition 上發表了相關論文,研究人員通過 Reed-Solomon 糾錯編碼和溶膠、凝膠將 DNA 封裝在二氧化硅玻璃球中來增加冗餘,而這可能是 DNA 存儲芯片的最早期形態。

2021 年 11 月起,多個研究團隊公布了 DNA 存儲芯片研究的新進展,包括我國東南大學、微軟研究院、伊利亞諾州西北大學以及佐治亞理工學院的研究小組。

11 月 12 日,我國東南大學生物科學與醫學工程學院、生物電子學國家重點實驗室的劉宏團隊成功將校訓“止於至善”存入一段 DNA 序列中,該論文發表於 Science Advances。

為了實現 DNA 存儲的微型化、集成化、自動化,該研究小組對測序過程進行了優化。基於電化學的單電極 DNA 合成和測序方法,通過電化學脫保護技術改進傳統亞磷酰胺化學合成方法,並基於電荷震蕩現象對電極表面的 DNA 分子進行測序,成功將校訓進行編碼和解碼。

一個咖啡杯裝下全世界的數據 DNA存儲芯片神奇在哪?

▲ 劉宏團隊基於電化學 DNA 合成與測序的 DNA 數據存儲系統流程圖(圖片來源為東南大學官網)

11 月 24 日,微軟研究院與華盛頓大學分子信息系統實驗室(MISL)合作在 DNA 存儲上取得突破的論文發表於 Science Advances 上,該研究小組公布首個納米級 DNA 存儲寫入器,DNA 芯片上的分子控制器和 DNA 寫入配有 PCIe 接口,可以一次性構建四股合成 DNA,產生包含 100 個鹼基的 DNA 鏈。

微軟研究院稱,更長的 DNA 鏈會容易出現錯誤,但隨着硬件的發展,這都會得到改進。該項實驗證明了 DNA 螺旋結構擴大存儲規模的可能性。

今年 11 月 29 日,伊利諾伊州西北大學合成生物學中心提出了將信息記錄到 DNA 的新方法發佈於《基因組學研究(Technology Networks)》期刊中,在編碼環節他們試圖通過 DNA 本身具有的能力來創建一種新的數據存儲解決方案。

在實驗過程中,他們使用一種新的酶促系統來合成 DNA,將快速變化的環境信號直接記錄到 DNA 序列中。西北大學工程學教授 Keith EJ Tyo 稱,通過直接控制合成 DNA 的酶,可以實現提前表達和連續存儲信息。

為了使 DNA 數據存儲在擴大存儲規模的同時能降低成本,12 月 1 日,佐治亞理工學院(GTRI)高級研究科學家尼古拉斯・吉斯(Nicholas Guise)在接受外媒英國廣播公司(BBC)採訪時說:“我們新芯片上的功能密度大約比當前的商業設備高出 100 倍。”

他們設計的芯片可以以極低的成本,通過超密集格式使 DNA 鏈實現增長,獲得大規格的存儲容量。這個微芯片配備了 10 組幾百納米深的“微孔”,使得 DNA 分子在這中間平行生長,最終在芯片上積壓了數百萬個 DNA 序列。相比於傳統的合成 DNA 製造過程,這種方法採用電化學局部激活合成,成本更加低廉。

一個咖啡杯裝下全世界的數據 DNA存儲芯片神奇在哪?

▲ 佐治亞理工學院(GTRI)研究小組實驗編碼解碼過程(圖片來源為論文插圖)

03. 合成 2MB 需要 7000 美元 讀取需要 2000 美元

不斷的研究表明,DNA 存儲技術將成為跨時代的存儲方式。但從上世紀 50 年代提出至今,其發展一直沒有重大的實質性進展。微軟研究院作為 DNA 數據存儲的早期入局者,2015 年開始進行相關研究,直到 2019 年才有研發進展,他們展示了一個全自動系統來編碼和解碼 DNA 中的數據信息。

DNA 存儲芯片能夠實現高密度、長時間的存儲特性,但目前該項技術還不能廣泛運用於計算機領域,目前主要針對一些不常用但需要保存的內容。DNA 存儲芯片無法商業化,大概有以下幾點原因。

首先,DNA 存儲數據的寫入和讀取成本高昂。2017 年哥倫比亞大學的實驗顯示,合成 2MB 的 DNA 數據需要 7000 美元,而讀取數據需要 2000 美元,儘管這相比於 2013 年每兆 12400 美元的成本已經大大降低,但如果用戶需要以 DNA 形式儲存 1GB 的電影,編碼大約需要花費 358 萬美元,而讀取數據還需要 102 萬美元。

其次,DNA 存儲數據的解碼過程需要大型工具。目前 DNA 存儲技術的解碼過程,還需要依賴測序儀對 DNA 分子進行排序,市面上量產的測序儀大多都用於小型實驗室、臨床應用等時效性要求較高的場景,距日常使用還很遠。

一個咖啡杯裝下全世界的數據 DNA存儲芯片神奇在哪?

▲ 測序服務供應商 Illumina 的測序儀產品 iSeq 100(圖片來源為 Illumina 官網)

此外,DNA 存儲技術的讀寫速度慢。2021 年 12 月初,佐治亞理工學院的研究將 DNA 存儲速度提升到了每天寫入 20GB 數據,目前固態硬盤的讀寫速度大約為每秒 500MB。IDC《數據時代 2025》的報告顯示,全球每年產生的數據在 2025 年將達到 175ZB,相當於每天產生 491EB 的數據。即使 DNA 存儲芯片的密度足夠大,其實時讀取速度也無法滿足當前的數據存儲需求。

DNA 存儲芯片是未來大容量存儲較為理想的介質,目前的研究進展大部分都處於概念驗證階段,其硬件設備的落地還需要很長一段時間。

04. 結語:DNA 存儲商業化的關鍵,實現低成本、高密度

DNA 存儲芯片存儲密度高、穩定性高、易於維護的優勢決定了它成為下一代存儲設備的可能。不過該項技術的進一步商業化還有很多限制,例如成本高昂、存儲環境限制較多、實時讀取速度慢等,這些都表明其變成主流存儲設備還有很長一段路要走。

我們處於數字時代,從智能手機、平板、PC 到可穿戴設備每天都會產生大量信息,因此這個現實條件決定,找到性能要求更高且更加低成本的存儲設備迫在眉睫。

DNA 的半衰期為 521 年,在一個冰冷或合適的條件下,DNA 可以持續存在數十萬年,甚至幾百萬年,如果 DNA 存儲技術真正實現商用,在未來,我們的數據檔案可能將變成“化石”留存下來。

(0)
上一篇 2021-12-27 20:53
下一篇 2021-12-27 20:53

相关推荐