科學家們公布完整的人類基因組序列 並揭示了新的遺傳秘密

科學家們在2003年宣布人類基因組的完整序列時,實際上當時仍有大約8%尚未被完全破譯。這主要是因為它由高度重複的DNA片段組成,很難與其他部分嚙合。但是,一個為期三年的聯盟終於填補了剩餘的DNA研究空白,為科學家和醫生提供了第一個完整的、無間隙的基因組序列供參考。

ezgif-4-9daee18fe5.gif

新完成的基因組被稱為T2T-CHM13,代表了目前參考基因組的一個重大升級,該基因組被醫生用來尋找與疾病有關的突變,以及被研究人類遺傳變異進化的科學家使用。

除其他事項外,新的DNA序列揭示了關於着絲粒(centromere)周圍區域的前所未有的細節,着絲粒是細胞分裂時染色體被抓取和拉開的地方,確保每個“子”細胞繼承正確的染色體數量。這個區域內的變異性也可能為我們的人類祖先如何在非洲進化提供新的證據。

加利福尼亞大學伯克利分校的博士后研究員Nicolas Altemose說:“揭示這些以前缺失的基因組區域的完整序列告訴我們很多關於它們是如何組織起來的,這對於許多染色體來說是完全未知的。”他是四篇關於已完成基因組的新論文的共同作者。“以前,我們只是對那裡的情況有最模糊的了解,而現在它已經清晰到了單鹼基對的分辨率。”

Altemose是一篇描述着絲粒周圍鹼基對序列的論文的第一作者。一篇解釋如何進行測序的論文出現在4月1日的《科學》雜誌印刷版上,而Altemose的着絲粒論文和其他四篇描述新序列告訴我們什麼的論文在該雜誌上進行了總結,論文全文發布在網上。四篇配套論文,包括Altemose是共同第一作者的一篇,也於4月1日在《自然方法》雜誌上在線發表。

測序和分析是由一個由100多人組成的團隊完成的,即所謂的“端粒到端粒”聯盟(T2T),以覆蓋所有染色體末端的端粒命名。該聯盟的所有22條常染色體和X性染色體的無間隙版本由30.55億個鹼基對組成,這些鹼基對是構建染色體和我們的基因的單位,還有19969個蛋白質編碼基因。在蛋白質編碼基因中,T2T團隊發現了大約2000個新的基因,其中大部分是禁用的,但其中115個可能仍在表達。他們還在人類基因組中發現了大約200萬個額外的變體,其中622個發生在醫學相關的基因中。

“將來,當某人的基因組被測序時,我們將能夠識別他們DNA中的所有變體,並利用這些信息更好地指導他們的醫療保健,”T2T的領導人之一、美國國立衛生研究院國家人類基因組研究所(NHGRI)的高級調查員Adam Phillippy說。“真正完成人類基因組序列就像戴上了一副新眼鏡。現在我們可以清楚地看到一切,我們離理解這一切意味着什麼又近了一步。”

不斷演變的着絲粒

着絲粒內和周圍的新DNA序列共占整個基因組的6.2%,即近1.9億個鹼基對,或核苷酸。在剩下的新增加的序列中,大部分被發現在每條染色體末端的端粒周圍和核糖體基因周圍的區域。整個基因組僅由四種類型的核苷酸組成,這些核苷酸以三組為單位,對用於構建蛋白質的氨基酸進行編碼。Altemose的主要研究涉及尋找和探索染色體上蛋白質與DNA相互作用的區域。

Layers-of-Relic-Centromeres.jpg

Altemose說:“沒有蛋白質,DNA就什麼都不是。”在獲得牛津大學統計學博士學位后,他於2021年在加州大學伯克利分校和舊金山分校聯合獲得了生物工程博士學位。“DNA是一組指令,如果它周圍沒有蛋白質來組織它,調節它,在它受損時修復它,並複製它,就沒有人可以讀懂它。蛋白質與DNA的相互作用確實是基因組調控的所有行動發生的地方,能夠繪製出某些蛋白質與基因組結合的位置,對於理解它們的功能真的很重要。”

在T2T聯盟對缺失的DNA進行測序后,Altemose和他的團隊使用新技術找到了着絲粒內的位置,在那裡,一個被稱為”動粒”的大蛋白複合物牢固地抓住了染色體,以便細胞核內的其他機器能夠將染色體對拉開。

他說:“當這出錯時,你最終會出現染色體錯誤分離的情況,而這將導致各種問題。如果這發生在減數分裂中,這意味着你可能出現染色體異常,導致自發流產或先天性疾病。如果它發生在體細胞中,你可能最終患上癌症–基本上,有大量錯誤調節的細胞。”

他們在着絲粒內和周圍發現的是新的序列層疊在舊的序列層上,就像通過進化,新的着絲粒區域被反覆鋪設以結合到動粒上。舊區域的特點是有更多的隨機突變和缺失,表明它們不再被細胞使用。較新的與動粒結合的序列變化較少,而且甲基化程度也較低。甲基化的增加是一個表觀遺傳標籤,傾向於使基因沉默。

着絲粒內和周圍的所有層都是由重複長度的DNA組成的,基於一個大約171個鹼基對長的單位,這大約是包裹着一組蛋白質形成核糖體的DNA的長度,保持DNA的包裝和緊湊。這些171個鹼基對的單位形成了更大的重複結構,被串聯重複多次,在着絲粒周圍建立了一個大的重複序列區域。

T2T團隊只關注一個人類基因組,該基因組是從一個被稱為葡萄胎的非癌症腫瘤中獲得的,它本質上是一個拒絕母體DNA而複製其父體DNA的人類胚胎。這樣的胚胎會死亡並轉化為腫瘤。但是這個痣有兩個相同的父系DNA副本–都帶有父親的X染色體,而不是來自母親和父親的不同DNA–這一事實使它更容易測序。

Altemose說,研究人員本周還發布了一個來自不同來源的Y染色體的完整序列,該序列花費的時間幾乎與基因組的其他部分加起來一樣長。對這個新的Y染色體序列的分析將出現在未來的出版物中。

3.png

Altemose和他的團隊,包括加州大學伯克利分校的項目科學家Sasha Langley,還用新的參考基因組作為支架,比較了來自世界各地的1600個個體的中心粒DNA,揭示了着絲粒周圍重複DNA的序列和拷貝數的重大差異。以前的研究表明,當古人類群體從非洲遷移到世界其他地方時,他們只帶走了一小部分基因變體的樣本。Altemose和他的團隊證實,這種模式延伸到了着絲粒。

Altemose說:“我們所發現的是,在非洲大陸以外的具有近期血統的個體中,他們的着絲粒,至少在X染色體上,往往分為兩個大的集群,而大多數有趣的變異是在具有近期非洲血統的個體中。鑒於我們對基因組其他部分的了解,這並不完全是一個驚喜。但它所表明的是,如果我們想看看這些着絲粒區域的有趣變異,我們確實需要集中精力對更多的非洲基因組進行測序,並進行完整的端粒到端粒的序列組裝。”

他指出,着絲粒周圍的DNA序列也可以用來追蹤人類的血統,追溯到我們共同的猿人祖先。

Altemose說:“當你遠離活躍的着絲粒部位時,你會得到越來越多的退化序列,以至於如果你走到這個重複序列‘海洋的最遠海岸’,你開始看到古老的着絲粒,也許,我們的靈長類祖先的着絲粒曾經與動粒結合。這幾乎就像化石的層次。”

長讀測序“改變了遊戲規則”

T2T的成功歸功於一次對長DNA片段進行測序的改進技術,這有助於確定高度重複的DNA片段的順序。其中有PacBio的HiFi測序技術,它可以高精度地讀取長度超過20,000個鹼基對的數據。另一方面, Oxford Nanopore技術有限公司開發的技術可以讀取多達幾百萬個鹼基對的序列,儘管保真度較低。作為比較,Illumina公司的所謂下一代測序技術僅限於數百個鹼基對。

4.jpg

Altemose說:“這些新的長讀DNA測序技術真是令人難以置信;它們是這樣的遊戲改變者,不僅對於這個重複的DNA世界,而且因為它們允許你對單個長的DNA分子進行測序。你可以開始在一個分辨率水平上提出問題,這在以前是不可能的,即使是短讀測序方法也不可能。”

Altemose計劃進一步探索着絲粒區域,使用他和斯坦福大學的同事開發的一種改進技術來確定染色體上被蛋白質結合的位置,類似於動粒與着絲粒結合的方式。這項技術也使用了長讀測序技術。他和他的小組在本周發表在《自然方法》雜誌上的一篇論文中描述了這種技術,稱為定向甲基化與長讀測序(DiMeLo-seq)。

同時,T2T聯盟正在與人類泛基因組參考聯盟合作,致力於建立一個代表全人類的參考基因組。

Altemose說:“我們應該有一個代表每個人的參考,而不是僅僅從一個人類個體或一個葡萄胎(甚至不是真正的人類個體)獲得一個參考。關於如何實現這一目標,有各種想法。但是我們首先需要的是掌握這種變異是什麼樣子的,我們需要大量高質量的個體基因組序列來完成這個任務。”

他在着絲粒區域的工作,他稱之為”一個激情項目”,是由博士后獎學金資助的。T2T項目的負責人是加州大學聖克魯茲分校的Karen Miga、華盛頓大學的Evan Eichler和NHGRI的Adam Phillippy,後者提供了大部分的資金。加州大學伯克利分校着絲粒論文的其他合著者是生物工程副教授Aaron Streets;分子和細胞生物學教授Abby Dernburg和Gary Karpen;項目科學家Sasha Langley;以及前博士后研究員Gina Caldas。

(0)
上一篇 2022-04-04 10:23
下一篇 2022-04-04 11:19

相关推荐