首個完整無間隙人類基因組序列出爐
國際科學(xué)團(tuán)隊端粒到端粒聯(lián)盟(T2T)宣告第一個完整的、無間隙的人類基因組序列問世,這本人類生命“天書”終于完整了。其首次揭示了高度相同的節(jié)段重復(fù)基因組區(qū)域及其在人類基因組中的變異,這是對標(biāo)準(zhǔn)人類參考基因組,即2013年發(fā)布的參考基因組序列(GRCh38)的重大升級。
人類的基因組常常被比作生命的“天書”——A、T、G、C四種堿基構(gòu)成了DNA,卻配對出超過60億種可能,足見其紛繁復(fù)雜。
在由中、美、英、法、德、日6國科學(xué)家共同參與研究的人類基因組序列草圖正式發(fā)布20多年后,國際科學(xué)團(tuán)隊端粒到端粒聯(lián)盟(T2T)宣告第一個完整的、無間隙的人類基因組序列問世,這本人類生命“天書”終于完整了。它首次揭示了高度相同的節(jié)段重復(fù)基因組區(qū)域及其在人類基因組中的變異,這是對標(biāo)準(zhǔn)人類參考基因組,即2013年發(fā)布的參考基因組序列(GRCh38)的重大升級。
4月1日,《科學(xué)》雜志連發(fā)6篇論文報道了這一成果。
這一成果將從根本上改變我們治療多種疾病的方式。隨著新冠病毒新變種的頻繁出現(xiàn),科學(xué)家們可以使用完整的基因組測序來尋找與該疾病相關(guān)的突變,他們還可以更詳細(xì)地利用其來研究人類遺傳變異的進(jìn)化,或?qū)氐赘淖內(nèi)藗兝斫馊祟愡M(jìn)化的方式。
8%的“空白區(qū)”不是“垃圾”
2001年2月12日,國際人類基因組計劃首次公布人類基因組圖譜及初步分析結(jié)果;2003年4月15日,人類基因組序列草圖正式公布。然而,由于技術(shù)條件限制,當(dāng)初的人類基因組圖譜留下了大約8%的空白間隙。這一很難被測序的部分,由高度重復(fù)的DNA序列組成,包含染色體末端的端粒和染色體中心節(jié)點的著絲粒。
著絲粒背后的異染色質(zhì)序列位于染色體的關(guān)鍵部位,在人類基因組序列草圖中,它們都被標(biāo)記為N的長序列,表示“未知的堿基”。13、14、15、21和22號染色體的短臂序列也同樣被忽略。
美國國立衛(wèi)生研究院下屬的國家人類基因組研究所(NHGRI)所長、醫(yī)學(xué)博士埃里克·格林稱,缺少片段的基因組“就像缺少句子的段落”一樣不完整。
華盛頓大學(xué)霍華德·休斯醫(yī)學(xué)研究所研究員埃文·艾希勒說,對DNA進(jìn)行測序就像解決拼圖游戲一樣?茖W(xué)家們必須首先將DNA分解成更小的部分,然后使用測序儀以正確的順序?qū)⑵淦礈愒谝黄稹?/p>
現(xiàn)在,新的T2T基因組圖譜補(bǔ)足了拼圖盒圖片上8%的空白,并更正了此前拼圖中存在的數(shù)千個錯誤。大多數(shù)新添加的DNA序列位于重復(fù)端粒和著絲粒附近。
新的無間隙版本被稱為T2T—CHM13,由30.55億個堿基對和19969個蛋白質(zhì)編碼基因組成,增加了近2億個堿基對的新DNA序列,包括99個可能編碼蛋白質(zhì)的基因和其中近2000個需要進(jìn)一步研究的候選基因。這些候選基因大多數(shù)是失活的,但其中115個仍然可能表達(dá)。研究團(tuán)隊還在人類基因組中發(fā)現(xiàn)了大約200萬個額外的變異,其中622個出現(xiàn)在與醫(yī)學(xué)相關(guān)的基因中。此外,新序列還糾正了GRCh38中的數(shù)千個結(jié)構(gòu)錯誤,消除了每個樣本中數(shù)以萬計的假陽性變異,包括269個與疾病相關(guān)的已知或疑似基因的變異。
根據(jù)艾希勒的說法,事實證明,許多研究人員認(rèn)為是“垃圾或無關(guān)緊要”的那些重復(fù)序列實際上非常重要。
由于之前的GRCh38模型(稱為參考基因組)是多個個體基因組的組合,基本上將一個人的基因組與另一個人的基因組“縫合在一起”,因此存在一些錯誤和重疊。而新的、完整的版本消除了這些縫隙,更能代表一個人的實際基因組的樣子。
助力破解最后的“黑匣子”
由于重復(fù)區(qū)域的復(fù)雜性,剩下的8%的人類基因組多年來一直困擾著科學(xué)家。一方面,它包含具有多次重復(fù)的DNA區(qū)域,這使得使用以前的測序方法以正確的順序?qū)NA串在一起具有挑戰(zhàn)性。
早期,被稱為“短讀長”的DNA測序技術(shù)一次只能讀取相對較短的序列,也就是提供數(shù)百個DNA堿基序列。這是20年前唯一可用的基因組圖譜技術(shù)。例如,假設(shè)基因組的一部分由連續(xù)重復(fù)9次的句子“只工作不玩耍,聰明孩子也變傻”組成。該技術(shù)只會顯示其中的一部分,例如“只工作”“聰明”“孩子也”等。研究人員將這些簡短的部分拼湊在一起,組成了這句話,但他們無法知道它被重復(fù)了9次。因此,運用該技術(shù)仍然會在組裝的基因組序列中留下部分空白。
對于10000塊拼圖,當(dāng)它們看起來相似時,很難正確排列小塊的區(qū)域,就像對重復(fù)DNA的小片段進(jìn)行測序一樣。但是對于500塊拼圖,正確排列大范圍區(qū)域,即較長的DNA片段,要容易得多。因此,“長讀長”技術(shù)應(yīng)運而生。技術(shù)的巨大進(jìn)步使得研究人員能夠?qū)δ切╇y以閱讀的重復(fù)序列進(jìn)行排序。
在過去的10年中,出現(xiàn)了兩種新的DNA測序技術(shù)——“長讀長”技術(shù),可在不影響準(zhǔn)確性的情況下生成更長的DNA序列讀數(shù),甚至可一次閱讀整個“句子”或“段落”。
牛津納米孔(Nanopore)的DNA測序方法(超長讀長)一次可讀取多達(dá)100萬個DNA字母,準(zhǔn)確度適中;而太平洋生物科學(xué)公司(PacBio HiFi)的DNA測序方法(高保真讀長技術(shù))可讀取約20000個字母,準(zhǔn)確度近乎完美。這兩種測序的結(jié)合使T2T研究人員能夠避開區(qū)域的重復(fù),并確保裝配的基因序列高度準(zhǔn)確。
還有一種工具是默芬(Merfin),研究人員用它來清理人類基因組中一些最困難的序列。默芬使準(zhǔn)確測試序列成為可能,它可以感測可能不正確的代碼并自動糾正錯誤。因為生成現(xiàn)代序列的技術(shù)更加準(zhǔn)確,所以默芬僅用于最棘手的情況。例如,現(xiàn)有的技術(shù)很難評估像AAA這樣的完全相同的堿基對,而默芬糾正了這種序列錯誤。
換句話說,科學(xué)家們曾經(jīng)以為,重復(fù)區(qū)域的拼圖有著幾乎一樣的顏色和形狀,比如看起來都像藍(lán)天。但現(xiàn)在,更先進(jìn)的測序技術(shù)使科學(xué)家們發(fā)現(xiàn),這些重復(fù)的碎片圖案實際不僅僅是藍(lán)天,還有草地和太陽。
破解生命“天書”最后“黑匣子”的第二個挑戰(zhàn)是尋找僅包含一個基因組的細(xì)胞。標(biāo)準(zhǔn)的人類細(xì)胞包含兩組DNA,一組是母系DNA,另一組是父系DNA,但T2T團(tuán)隊使用的是一組被稱為完全性葡萄胎的細(xì)胞的DNA,其中僅包含父系DNA的副本。完全性葡萄胎是一種罕見的妊娠并發(fā)癥,由來源于胎盤的細(xì)胞異常生長引起。
這種方法簡化了基因組,因此科學(xué)家只需對一組DNA進(jìn)行測序,而不是兩組DNA。
基因組學(xué)一個關(guān)鍵里程碑
新序列補(bǔ)齊了人類基因組最后一塊拼圖,標(biāo)志著基因組學(xué)領(lǐng)域的一個關(guān)鍵里程碑。
新序列揭示了關(guān)于著絲粒周圍區(qū)域的前所未見的細(xì)節(jié)。這將大大增加人們對染色體的了解,尤其是著絲粒及其作用。因為該區(qū)域?qū)τ诹私馊祟愡M(jìn)化和遺傳多樣性以及對許多疾病的抵抗力或易感性至關(guān)重要。
同時,新序列揭示了以前未被發(fā)現(xiàn)的節(jié)段重復(fù),即在基因組中重復(fù)的長DNA片段。在人類基因組中的20000個基因中,大約950個起源于節(jié)段重復(fù)。這些人類特有的節(jié)段重復(fù)是新基因的儲存庫,這些基因會在發(fā)育中的大腦中驅(qū)動更多神經(jīng)元的形成,并增強(qiáng)額葉皮質(zhì)突觸的連接性——可能與人類特有的高級思維、推理、邏輯和語言功能有關(guān)。
而更準(zhǔn)確的5條染色體臂圖譜的呈現(xiàn),或幫助科學(xué)家開辟新的研究方向,有助于回答有關(guān)染色體如何正確分離和分裂的基本生物學(xué)問題。
“生成真正完整的人類基因組序列代表了一項令人難以置信的科學(xué)成就,提供了人類基因藍(lán)圖的第一個全面視圖!备窳终f,“這些基礎(chǔ)信息將推進(jìn)許多正在進(jìn)行的努力,幫助我們了解人類基因組的細(xì)節(jié),這反過來又將為人類疾病的基因研究提供支持。”
除了完成組裝拼圖的醫(yī)學(xué)研究意義之外,它還有助于回答:我們的基因組中包含什么使我們成為了人類?與其他猿類相比,原始基因組中的一些空白基因現(xiàn)在被認(rèn)為對于幫助人類制造更大的大腦至關(guān)重要。著絲粒的變異性也可能為人類祖先如何進(jìn)化提供新證據(jù)。
現(xiàn)在,科學(xué)家能夠隨時間變化跟蹤這些新的基因組區(qū)域,從而能夠?qū)σ淮忠淮、不同起源的人或物種進(jìn)行更嚴(yán)格的比較。
例如,艾希勒實驗室的研究生哈維·吉塔特對與人類前額葉皮質(zhì)擴(kuò)張相關(guān)的基因家族TBC1D3的分析顯示,在靈長類動物進(jìn)化的不同點上發(fā)生了反復(fù)和獨立的擴(kuò)張。最近一次發(fā)生在約200萬到260萬年前,大概是人屬出現(xiàn)的時候。令人驚訝的是,人類的TBC1D3基因家族在一部分樣本中顯示出顯著的大規(guī)模結(jié)構(gòu)變異。
研究人員在其論文中解釋說,不同的人有著截然不同的TBC1D3基因家族的互補(bǔ)和排列方式。對于一個被認(rèn)為對大腦功能如此重要的基因來說,這是令人意想不到的?茖W(xué)家們還發(fā)現(xiàn)了LPA基因復(fù)雜結(jié)構(gòu)的多樣性,這種脂蛋白基因部分的變異性是血液中血脂水平異常導(dǎo)致心血管疾病的最重要的遺傳風(fēng)險因素。
研究人員還研究了SMN基因(一種運動神經(jīng)元基因),其突變與某些神經(jīng)肌肉疾病有關(guān)。對脊髓性肌萎縮區(qū)域(5號染色體上最難完成測序的區(qū)域之一)進(jìn)行更好的序列識別,從而有助于確定疾病風(fēng)險并進(jìn)一步治療,因為重復(fù)基因SMN2是最有效基因療法之一的靶點。
此外,許多疾病與著絲粒中的結(jié)構(gòu)重復(fù)有關(guān),因此,新序列有助于科學(xué)家研究與基因相關(guān)的疾病。
眾所周知,著絲粒在細(xì)胞繁殖時在DNA復(fù)制中發(fā)揮作用,如果顯著改變它們在染色體中的位置,就可以產(chǎn)生全新的物種。當(dāng)某些異染色質(zhì)著絲;蜻^度表達(dá)時,癌細(xì)胞會瘋狂分裂;細(xì)胞分裂和細(xì)胞之間遺傳物質(zhì)分配出錯也可能導(dǎo)致產(chǎn)前發(fā)育的異常,如唐氏綜合癥或羅伯遜易位,而對著絲;蚪M的全面了解可能為治療這些疾病打開新大門。
基于這些和其他發(fā)現(xiàn),科學(xué)家們指出,新的參考基因組“揭示了對神經(jīng)發(fā)育和人類疾病很重要的基因中人類遺傳變異的前所未有的水平”。
這不是結(jié)束而是新的開始
此次,T2T團(tuán)隊使用的葡萄胎細(xì)胞只保留了XX染色體——一組重復(fù)的染色體,缺失了Y染色體。而完成單倍體基因組測序并不是“人類基因組計劃”的最終目標(biāo)和結(jié)果,更是一個新的開始。
艾希勒稱:“我們已經(jīng)完成了一個基因組。在接下來的幾年里,將會有數(shù)百甚至數(shù)千個基因組。我認(rèn)為我們對人類彼此不同的看法將發(fā)生轉(zhuǎn)變,更復(fù)雜的遺傳變異不僅對了解什么使我們成為人類很重要,而且對了解什么使我們與眾不同也很重要!
下一階段,科學(xué)家們將對多個不同個體的基因組進(jìn)行測序,以充分掌握人類的多樣性、疾病以及人類與其他靈長類動物的關(guān)系。
好消息是,研究人員也即將發(fā)布來自不同來源細(xì)胞的Y染色體的完整序列。對這一新Y染色體序列的分析將出現(xiàn)在未來的出版物中。
此外,T2T聯(lián)盟還有一個新目標(biāo)——從不同種族或血統(tǒng)的人中提取350個基因組(目前已破譯了70個基因組)。NHGRI基因信息學(xué)部門負(fù)責(zé)人亞當(dāng)·菲利普博士說,該項目將總共花費數(shù)百萬美元或更多。但與2003年人類基因組計劃完成最終測序所花費的近4.5億美元相比,這只是一個零頭。隨著新技術(shù)的出現(xiàn),測序只會變得越來越便宜。
就目前而言,對每個人來說,測序自己的基因組仍然過于昂貴和耗時,但使用全新基因組序列來確定某些基因差異是否與特定癌癥有關(guān)的研究已經(jīng)在路上。
菲利普博士表示,在未來幾年內(nèi),對一個人的整個基因組進(jìn)行測序應(yīng)該會變得更便宜、更簡單。
“未來,當(dāng)某人對其基因組進(jìn)行測序時,我們將能夠識別他們DNA中的所有變異,并利用這些信息更好地指導(dǎo)他們的醫(yī)療保健!狈评照f,“真正完成人類基因組序列就像戴上一副新眼鏡,現(xiàn)在我們可以清楚地看到一切,而我們離理解這一切意味著什么又近了一步!睂嵙(xí)記者 張佳欣 策 劃:馮衛(wèi)東 王俊鳴
(責(zé)任編輯:支艷蓉)