想象一下,研究人员用手电筒在一个黑暗的房间里探索,只能清楚地识别出单光束内的东西。当涉及到微生物群落时,科学家们一直无法看到光束之外的东西——更糟糕的是,他们甚至不知道房间有多大。

2023年10月11日在线发表在《自然》杂志上的一项新研究通过一种新颖的方法,通过观察微生物群落中的蛋白质功能,更好地了解微生物群落,强调了微生物的巨大功能多样性。这项工作是由美国能源部(DOE)联合基因组研究所(JGI)的一组科学家领导的,包括世界各地多个其他研究中心的合作者。

文章摘要

宏基因组编码了大量的蛋白质,反映了多种功能和活性。对这一巨大序列空间的探索仅限于对参考微生物基因组和来自这些基因组的蛋白质家族的比较分析。在这里,为了检验尚未开发的功能多样性的规模,超越目前可能通过参考基因组的视角,作者开发了一种计算方法,从宏基因组的序列空间生成无参考蛋白家族。他们分析了26,931个宏基因组,鉴定出11.7亿个长度超过35个氨基酸的蛋白质序列,这些序列与来自102,491个参考基因组或Pfam数据库的任何序列没有相似性。通过大规模并行图聚类,他们将这些蛋白质分成106,198个新序列簇,每个簇有100多个成员,这是使用相同方法从参考基因组聚类获得的蛋白质家族数量的两倍。他们根据它们的分类、栖息地、地理和基因邻域分布对这些科进行了注释,并在序列多样性充足的地方预测了蛋白质的三维模型,揭示了新的结构。总的来说,研究结果揭示了一个非常多样化的功能空间,突出了进一步探索微生物功能暗物质的重要性。

作者心得

“到目前为止,我们已经将已知的蛋白质家族数量增加了一倍以上,并确定了许多新的结构预测,”该论文的主要作者Georgios Pavlopoulos说,他现在是生物医学科学研究中心Alexander Fleming的研究主任。“这是一个对13亿蛋白质进行大规模并行计算的大规模分析。”

在JGI科学家的指导下,该团队开始了一项揭开隐藏在“黑暗”功能领域的神秘面纱的任务。他们的重点集中在破译蛋白质功能多样性的复杂世界:在尚未揭示的微生物中发现新的蛋白质家族和新的功能。利用超过26000个微生物组数据集的集体力量,所有这些数据集都可以通过公开的综合微生物基因组和微生物组(IMG/M)数据库访问,他们成功地制作了新宏基因组蛋白质家族(NMPF)目录。

“我们现在可以通过与这些蛋白质家族进行比较来分析新的数据集,或者进一步分析蛋白质家族以预测新的功能,”该研究的高级作者、JGI微生物组数据科学小组负责人Nikos Kyrpides说。

点亮功能性“暗物质”的光芒

微生物群落无处不在,从土壤和胃到深海,当涉及到能量循环时,它们能够做很多独特的事情——将生物质转化为乙醇或氢,或将太阳能转化为氢。微生物群落也非常难以研究。其中的许多微生物无法在实验室环境中培养。由于每个微生物群落都有自己独特的微生物参与者组成和它们执行的功能,因此人工复制整个群落是不可能的。

宏基因组测序允许研究人员通过对样本进行全基因组测序来研究这些群落的整个基因组成,而不需要区分哪个基因属于一个群落中的每个微生物物种。因此,该过程依赖于参考现有的基因组序列。其中一些蛋白质被科学家称为“已知已知”,也就是说,它们与已知功能的基因相似。另一些则被称为“已知的未知”——也就是说,它们与以前从分离生物体中获得的已知基因相似,但我们仍然不确定它们的功能。

然而,如果群落中的一个基因与以前从分离物中获得的任何已知基因都不匹配,那么科学家就无法了解它的功能或起源。结果,这些基因通常被作为无用的信息从任何分析中丢弃。这些代表“未知的未知数”,因为它们与我们已经定义的任何东西都不相似。

Kyrpides说:“到目前为止,我们所知道的蛋白质家族中有很大一部分——大约30-50%——仍然没有任何已知的功能,但我们知道这些家族。”然而,“近20年的宏基因组数据和宏基因组分析,仍然没有真正的分析来自宏基因组本身的蛋白质家族。”虽然最近有其他研究团队利用人工智能的力量来解码蛋白质序列的语言,并获得它们可能功能的线索。然而,这些努力仅限于已知的蛋白质序列领域。

Pavlopoulos说:“在这项努力中,我们不仅冒险进入了未知的领域,了解了功能多样性的广阔前景,而且我们还通过应用人工智能方法来解开它们的角色,从而突破了界限。”“因此,我们积累了大量开创性的见解,大大扩展了各种蛋白质潜在功能的视野,包括那些在生物技术中具有关键应用的蛋白质,如DNA编辑酶。”

以新的方式利用蛋白质家族

近年来,新的蛋白质家族的发现开始趋于平稳,这或许表明科学家们已经“捕获”了那里的大部分多样性,即使它还没有确切地定义它的作用。但这些“未知的未知”可能包含什么样的多样性呢? 该团队从IMG的80亿个宏基因组基因开始(该研究还参考了JGI的地球微生物组基因组数据,或GEM目录)。然后,他们删除了任何与先前已知基因有一点点相似的基因,留下了大约12亿个新基因。他们把剩下的基因聚在一起组成“家族”。从那里开始,他们把重点放在有至少100名成员的“家族”上。

“如果你有100个序列,集群的质量就会高得多,因为很难有来自不同位置或栖息地的100个序列非常好地随机排列,”作者解释说。“复制100次几乎是不可能的。”当团队完成这一阶段时,他们发现这个宏基因组空间(“未知的未知”)中的蛋白质家族多样性远远大于参考基因组——至少是两倍。

“随着我们继续增加更多的样本,我们得到了更多的蛋白质家族,”“几年后,随着我们继续对更多宏基因组进行测序,一些目前有50个或更多成员的集群将增长到100个或更多成员。所以,我们说多样性增加了一倍,但实际上可能是三倍、四倍、五倍或十倍。”

进一步挖掘多样性的阵列

虽然研究小组没有深入研究功能,但他们能够进一步表征这些家族。他们将蛋白质家族按环境划分,发现只有7%的蛋白质家族在所有八种环境类别中是共享的。相反,其他蛋白质家族更偏向特定的环境——无论是土壤、动物宿主、海洋生态等。“所以,它们一定在为那个栖息地做一些有趣或重要的事情。”“这绝对是科学界现在可以进一步利用的材料。比方说,有人正在研究土壤环境或人体,他们可能会选取其中一些科,并试图对它们进行功能表征,因为它们非常特定于该栖息地。”

分类学分析发现,这些蛋白质家族中的大多数属于细菌和病毒,尽管有600万个序列没有被分类。研究人员还试图通过3D建模来研究基因的功能,并将未知基因的结构与已知基因的结构进行比较——相似的结构意味着相似功能的可能性很高。研究小组还发现了具有全新结构的蛋白质家族。

执行这种级别分析的计算能力取决于能否进入伯克利实验室的另一个用户设施——国家能源研究科学计算中心。“这也是Aydin Bulu在伯克利实验室应用数学和计算研究部的团队的功劳,”Pavlopoulos说。“他们开发了并行算法来执行‘全对全’比较和图形聚类,能够在这种高度并行的基础设施中运行。”

这是蛋白质结构第一次被用来帮助描述大量微生物暗物质。这项研究花了大约两年的时间才完成,当时只有大约2万个宏基因组被测序。现在,这个数字接近6万。“仍有70-80%的已知微生物多样性尚未被基因组捕获,”“因此,就功能多样性而言,这种多样性肯定也包含了很多新的秘密。”

图片来自作者论文,由作者提供


提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.