在最近发表在《Nature Communications》杂志上的一项研究中,研究人员分析了来自63,000多个宏基因组和近88,000个分离基因组的数据,构建了一个新的全球微生物小型开放阅读框架(smORFs)目录,名为全球微生物小型开放阅读框架目录(GMSC)。该目录利用尖端的蛋白质基因组学和比较基因组学技术,对75个栖息地中超过9.64亿个非冗余smORF进行了全面注释,其规模约为以往任何smORF工作的20倍。研究人员进一步开发并发布了一种公开可用的鉴定和注释工具,名为“GMSC-mapper”,使未来的研究能够快速表征他们的微生物宏基因组数据集,并且比以前可能的准确性大大提高。最后,本研究发现古生菌中smORFs的比例明显高于细菌,这表明小蛋白在古生菌生物学中的作用更为复杂,并突出了微生物组生态学中大量小蛋白的多样性。
小开放阅读框(smORFs)是短的(小于100个密码子)DNA片段,经常出现在基因组中,可能编码推定的肽。它们在生物体的所有三个领域都被发现,估计占所有注释基因的5%到10%。以前被认为包含无功能的“垃圾”DNA,但越来越多的早期预测模型和最近的研究揭示了它们在应激反应、基因表达、管家功能、信号通路、抗菌活性和光合作用中的广泛生物学作用,特别是在微生物中。
传统的蛋白质发现技术在利用基因组数据可靠地识别和表征smORFs方面面临着重大挑战,导致它们在微生物组宏基因组研究中被广泛忽视。高通量比较基因组学、核糖核酸测序和蛋白质基因组学的最新进展已经解决了这些挑战的技术方面的问题。然而,大量潜在的smORF和潜在的假阳性smORF预测限制了全球smORF数据库的发展,阻碍了微生物组相关研究的努力。
本研究应用高度相似的smORF衍生推定肽的“重复独立观察”原则,从理论上最大限度地减少smORF假阳性预测,从而允许开发全球微生物smORF目录(GMSC)。该研究的数据来自SPIRE数据库(63,410个组装的宏基因组)和ProGenomes2数据库(87,920个分离基因组)。
使用MEGAHIT 1.2.9软件将鉴定出的≥60个碱基对(bp)的reads组装成contigs。随后通过改进的Prodigal算法传递这些contigs以识别smORFs。使用SPIRE数据库对假定的smORFs进行了栖息地微生物学(8类)标记,并使用GeoPandas平台对其地理范围进行了标记。
然后使用启发式Linclust算法使用分层聚类方法构建非冗余smORF目录,从而识别单序列聚类(singleton)。为了验证这些簇并防止smORF重复,研究人员仔细估计了假阴性单基因的比率,允许那些包含生物学上有意义的同源序列的单基因。最后,为了测试鉴定的smORF的质量,研究人员进行了广泛的硅质测试(QC),并与已有的蛋白质序列数据库(RefSeq和人类微生物组小蛋白家族数据集)交叉引用获得的结果。通过所有QC的smORFs被标记为“高质量”。
为了提高目录的实用性和用户友好性,研究人员开发了一个名为“GMSC-mapper”的表征和注释工具。该工具可以扫描呈现的宏基因组,并从宏基因组数据集中自动识别和注释小蛋白质(假定的肽)。为了验证和展示最终目录和工具的实用性,研究人员分析了来自RefSeq的古细菌和细菌宏基因组。他们使用他们的新工具来比较这两个生命领域的smORF密度。
研究结果表明,Prodigal算法的初步结果确定了27.2亿个潜在的smORF,其中84.7%被归类为“单子”。随后的假阳性筛选分析将这些假定的smORF减少到96,497,049个smORF,包括GMSC目录。
值得注意的是,尽管这个近10亿个强大的smORF目录比以前确定的大20倍,但稀薄分析表明,这只代表了全球可用smORF多样性的一小部分。
在计算机QC和附加数据库基因组预测匹配中,43,642,695(4.5%)的GMSC数据库为“高质量”。每个高质量的预测都标有综合注释,如分类、栖息地和(如果可用)生物功能。
“为了评估我们目录的全面性,我们将GMSC smORF编码的小蛋白与RefSeq数据库和先前发表的人类微生物组小蛋白家族数据集进行了匹配。在我们的目录中,只有5.3%的smORF与这些先前报道的小蛋白同源。另一方面,我们的目录包含了80%以上的参考数据集。”
基于GMSC的smORF密度比较显示,尽管采样数量明显减少(18个古细菌门对131个细菌门),但古细菌含有的smORF比例明显高于细菌。这一发现引发了关于古细菌中小蛋白质功能多样性和进化意义的有趣问题。不幸的是,鉴于目前古细菌宏基因组学文献的局限性,对这些生命形式中smORF生物学功能的预测无法得到充分验证。
本研究介绍了第一个全球微生物小型开放阅读框架目录的开发,命名为GMSC第1版(GMSCv1)。该目录包含了近10亿个预测的smORF,比以前已知的增加了约20倍。其中4300万个smORF被QC验证为“高质量”,并对其分类单元、潜在生物功能、地理位置和栖息地进行了全面注释。
研究人员还开发并验证了一种自动注释工具(GMSC-mapper),该工具能够筛选(元)基因组数据集,并有效地表征其中smORF的多样性。这项研究的公开结果为微生物组研究人员提供了前所未有的数据访问,使小蛋白发现这一严重未被开发的领域进入了一个新时代。