科學家通過為DNA字母表添加新字母使數據存儲的密度增加一倍

跟大多數事物一樣,自然界的數據存儲系統–DNA遠遠超過了我們所創造的任何東西。現在,伊利諾伊大學厄巴納-香檳分校的研究人員通過在其“字母表”上增加額外的字母來將其令人難以置信的存儲能力提高了一倍並開發了一種新的方法來讀取它。

科學家通過為DNA字母表添加新字母使數據存儲的密度增加一倍

DNA是由四個核鹼基的自然組合組成:腺嘌呤、鳥嘌呤、胞嘧啶和胸腺嘧啶。這些鹼基以字母A、G、C和T表示,以不同的序列組合在一起進而形成每個生物體的藍圖。而這種信息存儲系統的密度令人難以置信,一克DNA能存儲多達215PB(2.15億GB)的數據。

這當然使它成為現代社會每天產生的大量數據的一個非常具有吸引力的潛在存儲解決方案–互聯網的全部內容都可以裝在一個裝滿DNA的鞋盒裡。並且,如果這種存儲還不夠密集的話,新研究的研究人員已經找到了一種將其加倍的方法。

除了通常的A、G、C和T之外,研究小組在DNA字母表中有效地增加了七個“字母”。這些字母採取化學改性核苷酸的形式開闢了更多不同的組並允許在相同數量的物理空間內存儲更多的信息。

“想象一下英語字母表,”該研究的論文共同作者Kasra Tabatabaei說道,“如果你只有四個字母可以使用,那麼你只能創造出這麼多單詞。如果你有完整的字母表,你可以產生無限的單詞組合。這跟DNA是一樣的。我們可以將零和一轉換為A、G、C和T,而不是將零和一轉換為A、G、C、T及存儲字母表中的七個新字母。”

當然,增加額外的核苷酸意味着現有的讀取數據系統不會識別它們,所以該團隊還開發了一個能識別的新系統。DNA鏈通過一個專門設計的蛋白質中的納米孔來檢測各個單元–無論它們是天然的還是合成的。然後機器學習算法對儲存在其中的信息進行解碼。

“我們嘗試了11種核苷酸的77種不同組合,我們的方法能完美區分每一種,”該研究的論文共同作者Chao Pan說道,“作為我們識別不同核苷酸的方法的一部分的深度學習框架是通用的,這使得我們的方法可以通用於許多其他應用。”

除了密度,新方法還提高了數據的寫入速度,這通常是一個相當遲緩的DNA過程。這個系統約將向DNA寫入信息所需的時間減半。

這項工作可能有助於使DNA成為一個可行的數據存儲系統,當然在實現之前仍有大量的工作要做。

(0)
上一篇 2022-03-04 12:14
下一篇 2022-03-04 12:14

相关推荐