本文來源 |網(wǎng)易新聞
編輯整理 |今日讀法網(wǎng)
【商業(yè)與法治輿情觀察室 http://www.blaw.org.cn 快訊】
文中圖片來源于網(wǎng)絡(luò),,如有侵權(quán)請聯(lián)系后刪除
今天凌晨,,《科學(xué)》雜志一連上線了6篇論文,第一次公布了人類基因組的完整序列。這項(xiàng)跨越3年的研究成果,,填補(bǔ)了20年前測序結(jié)果留下的空白,,是人類基因組研究的一個(gè)重大里程碑,。
這次的完整測序和分析,,是114位科學(xué)家共同完成的。這些科學(xué)家來自不同國家的33個(gè)科研機(jī)構(gòu),,他們也被稱為“端粒到端粒聯(lián)盟”(Telemere-to-Telomere Consortium, T2T),。
填補(bǔ)8%的空白
對人類基因組的研究,已經(jīng)有50多年的歷史,。其中最有名的研究項(xiàng)目,,是1990年啟動(dòng)的“人類基因組計(jì)劃”。2003年4月14日,,多國實(shí)驗(yàn)室耗費(fèi)10多年的時(shí)間和30億美元的資金,,完成了人類基因組計(jì)劃的測序工作,首次繪制出了人類基因組的圖譜,。當(dāng)時(shí)的測序工作,,大大推動(dòng)了基因組學(xué)的研究,增加了我們對人體和疾病的理解,。
但是,,當(dāng)時(shí)人類基因組計(jì)劃得出的序列中,仍然留下了大約8%的空白,,其中包含了很多高度重復(fù)的DNA序列,,加起來有一條染色體那么長。
人類的1至22號(hào)染色體 | Andreas Bolzer et al.
這8%的缺失,,源于20年前測序技術(shù)的限制,。當(dāng)時(shí)使用的測序方法是“短讀長測序”技術(shù)(“short-read" technology),一次只能讀取很短的一段基因序列,。打個(gè)比方,,如果把基因組的一部分想象成段落中的一句話,比如“今天早上小明吃了個(gè)包子”,,通過短讀長測序,,研究者能得到很多簡短的小部件,,比如“今天”、“小明”,、“明吃”,、“包子”;再經(jīng)過“拼圖”式的分析,,他們就可以拼湊出這句完整的話。
然而,,研究者雖然能知道這段基因里含有的簡短小序列,,卻無法知道這段基因被重復(fù)了多少次。也就是說,,研究者能夠拼湊出“今天早上小明吃了個(gè)包子”這句話,,但卻不知道這句話在整個(gè)段落里是否重復(fù)出現(xiàn)、重復(fù)了多少次,。正因缺少這些信息,,在過去的20年里,重復(fù)序列一直是基因組學(xué)研究的一大難題,。
直到兩種新技術(shù)誕生,,人類基因組學(xué)的研究才迎來了轉(zhuǎn)折點(diǎn)。這兩種技術(shù)都屬于“長讀長測序”技術(shù)(“l(fā)ong-read" technology),,一種是牛津納米孔測序(Oxford Nanopore DNA sequencing),,它可以一次讀取多達(dá)100萬個(gè)DNA堿基,準(zhǔn)確度中等,;另一種是PacBio HiFi測序,,一次只能讀取2萬個(gè)堿基,但準(zhǔn)確度近乎完美,。這兩種技術(shù),,都可以一次性測出大塊的DNA序列,研究者可以直接看到一整個(gè)句子甚至段落,,也就能知道某個(gè)序列連續(xù)重復(fù)了多少次,。
T2T聯(lián)盟的聯(lián)合主席凱倫·米加(Karen Miga)和亞當(dāng)·菲利比(Adam Phillippy)| T2T Consortium
從2019年初開始,T2T聯(lián)盟的科學(xué)家將這兩種新技術(shù)結(jié)合起來,,致力于攻克這些重復(fù)序列,,填補(bǔ)缺失的空白。2020年底,,他們公布了階段性成果——X染色體和8號(hào)染色體的完整組裝,。經(jīng)過之后2年的努力,現(xiàn)在,,他們終于揭開了真正完整的人類基因組序列,,從端粒到端粒,,包含了每一條染色體。
看到全部的基因遺產(chǎn)
2001年,,人類基因組計(jì)劃公布的參考基因組被稱為GRCh38,,之后又在不斷地被完善和修改;這一次,,T2T聯(lián)盟公布的新參考基因組叫做T2T-CHM13,,是GRCh38的升級(jí)版。新增加的DNA序列總計(jì)近2億個(gè)堿基對,,不僅填補(bǔ)了之前空缺的5個(gè)染色體短臂,,還揭曉了基因組中最復(fù)雜的區(qū)域——在端粒和著絲粒周圍的高度重復(fù)的DNA序列。
用HiFi測序測出的CHM13基因組的示意圖 | 參考文獻(xiàn)[1]
這次完整測序,,還糾正了以前的很多錯(cuò)誤,,比如一些之前沒能被檢測到的片段重復(fù)。這些長鏈重復(fù)DNA曾被認(rèn)為是基因組里的“垃圾區(qū)”,,沒有什么實(shí)際的作用,。但是,近年來,,越來越多的研究都表明,,這些重復(fù)序列對人類的進(jìn)化和疾病可能是非常重要的。這一次,,科學(xué)家們找到了基因組的最后一塊拼圖,,終于拼湊出了打開寶箱的鑰匙,接下來就可以研究其中尚未為人所知的寶藏了,。
參與此次研究的其中一個(gè)實(shí)驗(yàn)組,,來自美國加州大學(xué)圣克魯斯基因組學(xué)研究所。研究所所長大衛(wèi)·豪斯勒(David Haussler)說:“現(xiàn)在我們可以站在山頂,,俯瞰下面的所有景色,,看到我們?nèi)祟惾康幕蜻z產(chǎn)。”
完整基因組數(shù)據(jù)已經(jīng)在NCBI和GitHub上公開 | NCBI
下一步,,研究者們將會(huì)重點(diǎn)關(guān)注從前難以研究的重要區(qū)域,,比如著絲粒。這次新增加的基因組序列,,90%都來自著絲粒,。著絲粒對基因信息的遺傳極為重要,在減數(shù)分裂中,,成對染色體就是從著絲粒開始分裂的,。科學(xué)家認(rèn)為,很多與疾病相關(guān)的基因變異,,就藏在這絲粒的長段重復(fù)DNA之中,。
科學(xué)家們還將嘗試測序出更多的完整基因組。T2T會(huì)和人類泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium)合作,,計(jì)劃測出350個(gè)人的完整基因組序列,,創(chuàng)建一個(gè)“人類泛基因組參考”,從基因組的角度來呈現(xiàn)和解讀人類種群的多樣性,。
T2T 聯(lián)盟的聯(lián)合主席亞當(dāng)·菲利比(Adam Phillippy)認(rèn)為,,完整基因組的測序和分析,對每個(gè)人都有好處,。在不久的將來,,對一個(gè)人的完整基因組測序會(huì)變得更便宜、更簡單,,研究者和醫(yī)護(hù)人員也能從中識(shí)別出所有的基因變體,找到與疾病有關(guān)的部分,,從而為人們的醫(yī)療與生活提供建議,。
網(wǎng)頁鏈接:https://www.163.com/dy/article/H3SA6RQU05118OGM.html