植物基因組學(xué)研究為植物基因功能、群體遺傳、進(jìn)化和育種研究提供了重要基因組數(shù)據(jù)資源。近日,浙江大學(xué)樊龍江教授課題組在國(guó)際知名期刊《Nature Plants》發(fā)表了題為“Technology-enabled great leap in deciphering plant genomes”文章,系統(tǒng)收集并分析了自2000年(第一個(gè)植物基因組發(fā)表)以來(lái)測(cè)序組裝完成的高質(zhì)量植物基因組,合計(jì)包括來(lái)自1,575個(gè)物種的3,517個(gè)基因組。這些測(cè)序完成的基因組中,2/3的基因組(2,373個(gè))和1/2的植物物種(793個(gè))是在最近三年(2021-2023)完成的,相比于前20年(2000-2020)呈現(xiàn)出了一個(gè)巨大飛躍(圖1)。該研究系統(tǒng)分析了完成這些基因組的測(cè)序技術(shù)和組裝算法及其變遷。測(cè)序和拼接技術(shù)的進(jìn)步推進(jìn)了近期植物基因組學(xué)研究的快速發(fā)展。為了更全面地展示測(cè)序物種信息,并提供有關(guān)測(cè)序技術(shù)和組裝算法應(yīng)用情況,他們搭建了N3數(shù)據(jù)庫(kù)(N3: plants, genomes, technologies),提供了現(xiàn)有3,517個(gè)植物基因組的詳細(xì)信息,包括測(cè)序平臺(tái)、組裝質(zhì)量、組裝工具、可用基因組及其注釋文件的下載鏈接等。該數(shù)據(jù)庫(kù)為植物基因組學(xué)研究提供了重要資源和支撐。

圖1 植物基因組測(cè)序拼接和組裝質(zhì)量情況
近三年來(lái),植物基因組的組裝質(zhì)量迅速提高,拼接達(dá)到染色體水平的基因組比例從前20年的47.3%增長(zhǎng)為近三年的73.2%,平均contig N50大小從1.44 Mb增長(zhǎng)到11.92 Mb。近三年組裝的2,373個(gè)基因組涵蓋了植物界物種的主要分支(目),同時(shí)大量研究致力于更高質(zhì)量基因組的組裝,例如單倍型基因組,泛基因組和端粒到端粒(T2T)基因組(圖2)。

圖2 植物系統(tǒng)發(fā)育及其各主要分支(目)基因組測(cè)序物種數(shù)量及其相關(guān)拼接質(zhì)量指標(biāo)。紅色表示該目物種為最近三年內(nèi)才被測(cè)定,灰色表示該分支內(nèi)尚無(wú)物種被測(cè)序。
在近三年組裝的基因組中,94.0%的基因組均利用了三代測(cè)序(TGS)技術(shù),已占據(jù)主導(dǎo)地位,6.0%的基因組僅使用二代測(cè)序(NGS)數(shù)據(jù)進(jìn)行拼接。其中三代HiFi數(shù)據(jù)在2022年的使用比例激增,2023年已達(dá)到35.1%。組裝算法的創(chuàng)新也為獲得更完整的復(fù)雜基因組提供了機(jī)會(huì)。文章詳細(xì)分析了組裝三個(gè)階段的不同特點(diǎn),統(tǒng)計(jì)分析了每個(gè)階段最常使用的軟件并詳細(xì)闡述了其算法的迭代過(guò)程。例如基因組拼接步驟,其算法最初是基于測(cè)序讀序重疊區(qū)聯(lián)配延伸的OLC算法為主,NGS數(shù)據(jù)出現(xiàn)后德布魯因圖(de Bruijn graph)算法成為主流算法(如SOAPdenovo和Velvet),而隨著TGS數(shù)據(jù)的出現(xiàn),由于測(cè)序讀序變長(zhǎng),OLC算法(如Canu)重新?lián)Q發(fā)活力,同時(shí)串圖(string graph)算法(Hifiasm,Falcon和NextDenovo)可以利用長(zhǎng)讀序優(yōu)勢(shì),同樣成為主流算法。
該研究搭建的N3數(shù)據(jù)庫(kù)(http://ibi.zju.edu.cn/N3database/),提供了1,777篇植物基因組相關(guān)論文的元數(shù)據(jù),涵蓋來(lái)自1,575個(gè)物種的3,517個(gè)植物基因組的詳細(xì)信息。N3數(shù)據(jù)庫(kù)提供了代表性物種基因組及其基因注釋集,BLAST搜索和JBrowse基因組瀏覽等功能,為廣大研究人員提供了一個(gè)及時(shí)跟蹤獲取已測(cè)序的植物基因組詳細(xì)信息的綜合平臺(tái)。
浙江大學(xué)農(nóng)業(yè)與生物技術(shù)學(xué)院和海南研究院博士生謝玲娟、碩士生龔曉嬌為論文共同第一作者,樊龍江教授為通訊作者。項(xiàng)目研究得到了浙江省科技廳和海南省科技廳的支持。樊龍江教授團(tuán)隊(duì)長(zhǎng)期在植物基因組及其演化和環(huán)境適應(yīng)方面開(kāi)展研究,近年來(lái)在植物基因組和泛基因組方面取得了系列成果,分別在Nature Ecology & Evolution、PNAS等刊物上發(fā)表相關(guān)論文。
論文網(wǎng)址:https://www.nature.com/articles/s41477-024-01655-6
DOI:10.1038/s41477-024-01655-6
(文章來(lái)源:www.ebiotrade.com/newsf/2024-3) |