在最近發(fā)表在《Nature Communications》雜志上的一項(xiàng)研究中,研究人員分析了來自63,000多個(gè)宏基因組和近88,000個(gè)分離基因組的數(shù)據(jù),構(gòu)建了一個(gè)新的全球微生物小型開放閱讀框架(smORFs)目錄,名為全球微生物小型開放閱讀框架目錄(GMSC)。該目錄利用尖端的蛋白質(zhì)基因組學(xué)和比較基因組學(xué)技術(shù),對(duì)75個(gè)棲息地中超過9.64億個(gè)非冗余smORF進(jìn)行了全面注釋,其規(guī)模約為以往任何smORF工作的20倍。研究人員進(jìn)一步開發(fā)并發(fā)布了一種公開可用的鑒定和注釋工具,名為“GMSC-mapper”,使未來的研究能夠快速表征他們的微生物宏基因組數(shù)據(jù)集,并且比以前可能的準(zhǔn)確性大大提高。最后,本研究發(fā)現(xiàn)古生菌中smORFs的比例明顯高于細(xì)菌,這表明小蛋白在古生菌生物學(xué)中的作用更為復(fù)雜,并突出了微生物組生態(tài)學(xué)中大量小蛋白的多樣性。
小開放閱讀框(smORFs)是短的(小于100個(gè)密碼子)DNA片段,經(jīng)常出現(xiàn)在基因組中,可能編碼推定的肽。它們?cè)谏矬w的所有三個(gè)領(lǐng)域都被發(fā)現(xiàn),估計(jì)占所有注釋基因的5%到10%。以前被認(rèn)為包含無功能的“垃圾”DNA,但越來越多的早期預(yù)測(cè)模型和最近的研究揭示了它們?cè)趹?yīng)激反應(yīng)、基因表達(dá)、管家功能、信號(hào)通路、抗菌活性和光合作用中的廣泛生物學(xué)作用,特別是在微生物中。
傳統(tǒng)的蛋白質(zhì)發(fā)現(xiàn)技術(shù)在利用基因組數(shù)據(jù)可靠地識(shí)別和表征smORFs方面面臨著重大挑戰(zhàn),導(dǎo)致它們?cè)谖⑸锝M宏基因組研究中被廣泛忽視。高通量比較基因組學(xué)、核糖核酸測(cè)序和蛋白質(zhì)基因組學(xué)的最新進(jìn)展已經(jīng)解決了這些挑戰(zhàn)的技術(shù)方面的問題。然而,大量潛在的smORF和潛在的假陽性smORF預(yù)測(cè)限制了全球smORF數(shù)據(jù)庫(kù)的發(fā)展,阻礙了微生物組相關(guān)研究的努力。
本研究應(yīng)用高度相似的smORF衍生推定肽的“重復(fù)獨(dú)立觀察”原則,從理論上最大限度地減少smORF假陽性預(yù)測(cè),從而允許開發(fā)全球微生物smORF目錄(GMSC)。該研究的數(shù)據(jù)來自SPIRE數(shù)據(jù)庫(kù)(63,410個(gè)組裝的宏基因組)和ProGenomes2數(shù)據(jù)庫(kù)(87,920個(gè)分離基因組)。
使用MEGAHIT 1.2.9軟件將鑒定出的≥60個(gè)堿基對(duì)(bp)的reads組裝成contigs。隨后通過改進(jìn)的Prodigal算法傳遞這些contigs以識(shí)別smORFs。使用SPIRE數(shù)據(jù)庫(kù)對(duì)假定的smORFs進(jìn)行了棲息地微生物學(xué)(8類)標(biāo)記,并使用GeoPandas平臺(tái)對(duì)其地理范圍進(jìn)行了標(biāo)記。
然后使用啟發(fā)式Linclust算法使用分層聚類方法構(gòu)建非冗余smORF目錄,從而識(shí)別單序列聚類(singleton)。為了驗(yàn)證這些簇并防止smORF重復(fù),研究人員仔細(xì)估計(jì)了假陰性單基因的比率,允許那些包含生物學(xué)上有意義的同源序列的單基因。最后,為了測(cè)試鑒定的smORF的質(zhì)量,研究人員進(jìn)行了廣泛的硅質(zhì)測(cè)試(QC),并與已有的蛋白質(zhì)序列數(shù)據(jù)庫(kù)(RefSeq和人類微生物組小蛋白家族數(shù)據(jù)集)交叉引用獲得的結(jié)果。通過所有QC的smORFs被標(biāo)記為“高質(zhì)量”。
為了提高目錄的實(shí)用性和用戶友好性,研究人員開發(fā)了一個(gè)名為“GMSC-mapper”的表征和注釋工具。該工具可以掃描呈現(xiàn)的宏基因組,并從宏基因組數(shù)據(jù)集中自動(dòng)識(shí)別和注釋小蛋白質(zhì)(假定的肽)。為了驗(yàn)證和展示最終目錄和工具的實(shí)用性,研究人員分析了來自RefSeq的古細(xì)菌和細(xì)菌宏基因組。他們使用他們的新工具來比較這兩個(gè)生命領(lǐng)域的smORF密度。
研究結(jié)果表明,Prodigal算法的初步結(jié)果確定了27.2億個(gè)潛在的smORF,其中84.7%被歸類為“單子”。隨后的假陽性篩選分析將這些假定的smORF減少到96,497,049個(gè)smORF,包括GMSC目錄。
值得注意的是,盡管這個(gè)近10億個(gè)強(qiáng)大的smORF目錄比以前確定的大20倍,但稀薄分析表明,這只代表了全球可用smORF多樣性的一小部分。
在計(jì)算機(jī)QC和附加數(shù)據(jù)庫(kù)基因組預(yù)測(cè)匹配中,43,642,695(4.5%)的GMSC數(shù)據(jù)庫(kù)為“高質(zhì)量”。每個(gè)高質(zhì)量的預(yù)測(cè)都標(biāo)有綜合注釋,如分類、棲息地和(如果可用)生物功能。
“為了評(píng)估我們目錄的全面性,我們將GMSC smORF編碼的小蛋白與RefSeq數(shù)據(jù)庫(kù)和先前發(fā)表的人類微生物組小蛋白家族數(shù)據(jù)集進(jìn)行了匹配。在我們的目錄中,只有5.3%的smORF與這些先前報(bào)道的小蛋白同源。另一方面,我們的目錄包含了80%以上的參考數(shù)據(jù)集。”
基于GMSC的smORF密度比較顯示,盡管采樣數(shù)量明顯減少(18個(gè)古細(xì)菌門對(duì)131個(gè)細(xì)菌門),但古細(xì)菌含有的smORF比例明顯高于細(xì)菌。這一發(fā)現(xiàn)引發(fā)了關(guān)于古細(xì)菌中小蛋白質(zhì)功能多樣性和進(jìn)化意義的有趣問題。不幸的是,鑒于目前古細(xì)菌宏基因組學(xué)文獻(xiàn)的局限性,對(duì)這些生命形式中smORF生物學(xué)功能的預(yù)測(cè)無法得到充分驗(yàn)證。
本研究介紹了第一個(gè)全球微生物小型開放閱讀框架目錄的開發(fā),命名為GMSC第1版(GMSCv1)。該目錄包含了近10億個(gè)預(yù)測(cè)的smORF,比以前已知的增加了約20倍。其中4300萬個(gè)smORF被QC驗(yàn)證為“高質(zhì)量”,并對(duì)其分類單元、潛在生物功能、地理位置和棲息地進(jìn)行了全面注釋。
研究人員還開發(fā)并驗(yàn)證了一種自動(dòng)注釋工具(GMSC-mapper),該工具能夠篩選(元)基因組數(shù)據(jù)集,并有效地表征其中smORF的多樣性。這項(xiàng)研究的公開結(jié)果為微生物組研究人員提供了前所未有的數(shù)據(jù)訪問,使小蛋白發(fā)現(xiàn)這一嚴(yán)重未被開發(fā)的領(lǐng)域進(jìn)入了一個(gè)新時(shí)代。
(文章來源:www.ebiotrade.com/newsf/2024-9/20240904072837291.htm) |