經過科學家近二十年的努力,人類染色體基因組序列迄今為止是最準確和完整的脊椎動物基因組序列,但仍有數百個未知的空白或缺失的DNA序列。這些缺口通常包含重複的DNA片段,非常難以測序,但是這些重複片段卻是控制人類遺傳信息變異最豐富的區域之一,可能隱藏著理解人類生物學和疾病很重要的信息。
然而,人類基因組非常長,大約由60億個鹼基組成,目前大多數基因測序技術無法一次讀取所有鹼基,只能完成相對較短的序列「解譯和測序」。取而代之的是科學家只能將基因組切成更小的片段,然後分析每一個片段,每次產生幾百個鹼基的序列,然後將這些較短的DNA序列像拼圖一樣把它們重新組合在一起。這些較短的看起來幾乎一模一樣,而且重複的DNA序列,就像拼圖中存在大片藍天,科學家不知道這些片段是如何組合在一起的,也不知道重複多少次,這些大量重複的基因序列曾經被認為難以處理。
慶幸的是,7月14日科學家宣布首次完成完整的人類X染色體的端粒到端粒的組裝,填補了人類基因組序列中的空白,而且精確度達到了前所未有的水平,在基因組測序領域這是一個里程碑式的成就。此後,研究人員可以在這些區域中尋找序列變異與疾病之間的關聯,並為人類生物學和進化的一些重要問題提供新線索。
人類體內有兩套染色體,共24條,分別來自父母。男性從生理上繼承了來自母親X染色體和來自父親Y染色體;女性從生理上繼承兩條X染色體,一條來自母親,另一條來自父親,雖然看似女性有兩條X染色體,但是這兩條X染色體並不完全相同,它們的DNA序列有許多不同之處。人體中的 X染色體和許多疾病的產生有關,例如血友病、慢性肉芽腫病和杜氏肌營養不良等疾病。
為了避免分析正常人體細胞中兩個染色體發生的DNA變異,在新研究中研究人員沒有對來自正常人類細胞的X染色體進行排序,而是使用了一種特殊的細胞類型——有兩個相同的X染色體。
完成此次人類X染色體測序工作的核心所在是運用了一項新技術——納米孔測序技術。 通過這種新技術,可以對長段DNA進行測序,能對整個重複區域的數十萬鹼基對的超長讀數,其中就包括以前空白或重複的DNA序列。所以在這次測序工作中,科學家沒有像以前一樣準備和分析小的DNA片段,而是使用了一種保持DNA分子基本完整的方法,然後用兩種不同的儀器分析這些大的DNA分子,得到完整的染色體的基因組序列。
應用納米孔測序技術獲取的完整的基因組組合,在連續性、完整性和準確性方面超過了之前所有的人類基因組組合,甚至在某些指標上超過了當前的人類標準基因組。例如,在人類X染色體上,染色體中間有一段被稱為著絲粒的部分包含一個高度重複的DNA區域,該區域存在約300萬個重複的DNA鹼基,這些鹼基在以前被認為是難以測序的。但是應用這項技術,現在可以實現對這些重複區域數以百萬計的鹼基進行測序。
納米孔測序除了能提供超長讀取外,還可以檢測被甲基化修飾的鹼基。甲基化是一種「表觀」變化,不會改變序列,但對DNA結構和基因表達有重要影響。通過在X染色體上繪製甲基化模式,能夠確認之前的觀察,並揭示著絲粒內甲基化模式的一些有趣的趨勢。
實現完整的染色體的基因組序列的能力是一項技術創舉。在此之前,科學家知道人類基因組中這些以前未繪製的位點在個體之間有很大的不同,但就是不清楚這些差異是如何影響人類生物學和疾病。實現完整的染色體的基因組序列,人類將會獲得對基因組功能的全面理解,並為在生物醫學領域使用基因組信息提供有利的信息。
在未來,科學家將在繼續研究剩餘的人類染色體,計劃在2020年生成完整的人類基因組序列。然而,潛在的挑戰依然存在,例如人類的1號染色體和9號染色體具有比X染色體大得多的重複DNA片段。雖然不知道在未來新發現的基因序列中會發現什麼,但是納米孔測序技術將繼續在人類遺傳學和基因組學領域創造新的機會,開啟一個全新的基因組序列的時代。