本文來源 |網(wǎng)易新聞
編輯整理 |今日讀法網(wǎng)
【商業(yè)與法治輿情觀察室 http://www.blaw.org.cn 快訊】
文中圖片來源于網(wǎng)絡(luò),,如有侵權(quán)請(qǐng)聯(lián)系后刪除
今天凌晨,,《科學(xué)》雜志一連上線了6篇論文,第一次公布了人類基因組的完整序列,。這項(xiàng)跨越3年的研究成果,,填補(bǔ)了20年前測(cè)序結(jié)果留下的空白,,是人類基因組研究的一個(gè)重大里程碑。
這次的完整測(cè)序和分析,,是114位科學(xué)家共同完成的,。這些科學(xué)家來自不同國(guó)家的33個(gè)科研機(jī)構(gòu),他們也被稱為“端粒到端粒聯(lián)盟”(Telemere-to-Telomere Consortium, T2T),。
填補(bǔ)8%的空白
對(duì)人類基因組的研究,,已經(jīng)有50多年的歷史。其中最有名的研究項(xiàng)目,,是1990年啟動(dòng)的“人類基因組計(jì)劃”,。2003年4月14日,多國(guó)實(shí)驗(yàn)室耗費(fèi)10多年的時(shí)間和30億美元的資金,,完成了人類基因組計(jì)劃的測(cè)序工作,,首次繪制出了人類基因組的圖譜。當(dāng)時(shí)的測(cè)序工作,,大大推動(dòng)了基因組學(xué)的研究,,增加了我們對(duì)人體和疾病的理解。
但是,,當(dāng)時(shí)人類基因組計(jì)劃得出的序列中,,仍然留下了大約8%的空白,其中包含了很多高度重復(fù)的DNA序列,,加起來有一條染色體那么長(zhǎng),。
人類的1至22號(hào)染色體 | Andreas Bolzer et al.
這8%的缺失,源于20年前測(cè)序技術(shù)的限制,。當(dāng)時(shí)使用的測(cè)序方法是“短讀長(zhǎng)測(cè)序”技術(shù)(“short-read" technology),,一次只能讀取很短的一段基因序列。打個(gè)比方,如果把基因組的一部分想象成段落中的一句話,,比如“今天早上小明吃了個(gè)包子”,,通過短讀長(zhǎng)測(cè)序,研究者能得到很多簡(jiǎn)短的小部件,,比如“今天”,、“小明”、“明吃”,、“包子”,;再經(jīng)過“拼圖”式的分析,他們就可以拼湊出這句完整的話,。
然而,,研究者雖然能知道這段基因里含有的簡(jiǎn)短小序列,卻無法知道這段基因被重復(fù)了多少次,。也就是說,研究者能夠拼湊出“今天早上小明吃了個(gè)包子”這句話,,但卻不知道這句話在整個(gè)段落里是否重復(fù)出現(xiàn),、重復(fù)了多少次。正因缺少這些信息,,在過去的20年里,,重復(fù)序列一直是基因組學(xué)研究的一大難題。
直到兩種新技術(shù)誕生,,人類基因組學(xué)的研究才迎來了轉(zhuǎn)折點(diǎn),。這兩種技術(shù)都屬于“長(zhǎng)讀長(zhǎng)測(cè)序”技術(shù)(“l(fā)ong-read" technology),一種是牛津納米孔測(cè)序(Oxford Nanopore DNA sequencing),,它可以一次讀取多達(dá)100萬個(gè)DNA堿基,,準(zhǔn)確度中等;另一種是PacBio HiFi測(cè)序,,一次只能讀取2萬個(gè)堿基,,但準(zhǔn)確度近乎完美。這兩種技術(shù),,都可以一次性測(cè)出大塊的DNA序列,,研究者可以直接看到一整個(gè)句子甚至段落,也就能知道某個(gè)序列連續(xù)重復(fù)了多少次,。
T2T聯(lián)盟的聯(lián)合主席凱倫·米加(Karen Miga)和亞當(dāng)·菲利比(Adam Phillippy)| T2T Consortium
從2019年初開始,,T2T聯(lián)盟的科學(xué)家將這兩種新技術(shù)結(jié)合起來,致力于攻克這些重復(fù)序列,,填補(bǔ)缺失的空白,。2020年底,他們公布了階段性成果——X染色體和8號(hào)染色體的完整組裝。經(jīng)過之后2年的努力,,現(xiàn)在,,他們終于揭開了真正完整的人類基因組序列,從端粒到端粒,,包含了每一條染色體,。
看到全部的基因遺產(chǎn)
2001年,人類基因組計(jì)劃公布的參考基因組被稱為GRCh38,,之后又在不斷地被完善和修改,;這一次,T2T聯(lián)盟公布的新參考基因組叫做T2T-CHM13,,是GRCh38的升級(jí)版,。新增加的DNA序列總計(jì)近2億個(gè)堿基對(duì),不僅填補(bǔ)了之前空缺的5個(gè)染色體短臂,,還揭曉了基因組中最復(fù)雜的區(qū)域——在端粒和著絲粒周圍的高度重復(fù)的DNA序列,。
用HiFi測(cè)序測(cè)出的CHM13基因組的示意圖 | 參考文獻(xiàn)[1]
這次完整測(cè)序,還糾正了以前的很多錯(cuò)誤,,比如一些之前沒能被檢測(cè)到的片段重復(fù),。這些長(zhǎng)鏈重復(fù)DNA曾被認(rèn)為是基因組里的“垃圾區(qū)”,沒有什么實(shí)際的作用,。但是,,近年來,越來越多的研究都表明,,這些重復(fù)序列對(duì)人類的進(jìn)化和疾病可能是非常重要的,。這一次,科學(xué)家們找到了基因組的最后一塊拼圖,,終于拼湊出了打開寶箱的鑰匙,,接下來就可以研究其中尚未為人所知的寶藏了。
參與此次研究的其中一個(gè)實(shí)驗(yàn)組,,來自美國(guó)加州大學(xué)圣克魯斯基因組學(xué)研究所,。研究所所長(zhǎng)大衛(wèi)·豪斯勒(David Haussler)說:“現(xiàn)在我們可以站在山頂,俯瞰下面的所有景色,,看到我們?nèi)祟惾康幕蜻z產(chǎn),。”
完整基因組數(shù)據(jù)已經(jīng)在NCBI和GitHub上公開 | NCBI
下一步,研究者們將會(huì)重點(diǎn)關(guān)注從前難以研究的重要區(qū)域,,比如著絲粒,。這次新增加的基因組序列,90%都來自著絲粒,。著絲粒對(duì)基因信息的遺傳極為重要,,在減數(shù)分裂中,成對(duì)染色體就是從著絲粒開始分裂的??茖W(xué)家認(rèn)為,,很多與疾病相關(guān)的基因變異,就藏在這絲粒的長(zhǎng)段重復(fù)DNA之中,。
科學(xué)家們還將嘗試測(cè)序出更多的完整基因組,。T2T會(huì)和人類泛基因組參考聯(lián)盟(Human Pangenome Reference Consortium)合作,計(jì)劃測(cè)出350個(gè)人的完整基因組序列,,創(chuàng)建一個(gè)“人類泛基因組參考”,,從基因組的角度來呈現(xiàn)和解讀人類種群的多樣性。
T2T 聯(lián)盟的聯(lián)合主席亞當(dāng)·菲利比(Adam Phillippy)認(rèn)為,,完整基因組的測(cè)序和分析,,對(duì)每個(gè)人都有好處。在不久的將來,,對(duì)一個(gè)人的完整基因組測(cè)序會(huì)變得更便宜,、更簡(jiǎn)單,研究者和醫(yī)護(hù)人員也能從中識(shí)別出所有的基因變體,,找到與疾病有關(guān)的部分,,從而為人們的醫(yī)療與生活提供建議。
網(wǎng)頁鏈接:https://www.163.com/dy/article/H3SA6RQU05118OGM.html