Nature：科学家发布了描述20,000多个人类基因功能的综合资源

基因本体联盟（Gene Ontology Consortium）完成并发布了一个全面的资源库，这是一个关于人类蛋白质编码基因已知功能的百科全书式资源库。来自南加州大学凯克医学院、瑞士生物信息学研究所和其他机构的研究人员首次利用大规模进化建模，将人类基因数据与从其他生物体收集的遗传数据整合在一起。这一成果最终形成了一个可搜索的公共资源，列出了超过20,000个基因的已知功能，并使用最准确、最完整的证据。描述这一资源库的论文刚刚发表在《自然》杂志上。

基因本体是一个由美国国立卫生研究院资助的知识库，已经持续扩展和改进超过25年，已成为生物医学研究过程中的重要工具。目前，它每年被用于超过30,000篇出版物中，以帮助数据分析和解释。

进行“组学”实验的生物医学研究人员——即大规模研究DNA、RNA、蛋白质和其他生物分子的研究——会产生能够识别数百个感兴趣基因的数据。例如，研究人员可能会发现癌细胞与健康细胞相比哪些基因被“开启”或“关闭”。逐个查看数千篇关于每个基因已知功能的已发表论文是不现实的，因此许多科学家转而使用基因本体。

“我们的知识库使科学家能够从仅仅列出基因到理解它们的生物学功能，包括哪些可能对治疗有用。”南加州大学凯克医学院生物信息学与人口和公共健康科学系主任、基因本体联盟的主要研究者保罗·D·托马斯博士（Paul D. Thomas, PhD）说。

现在，这一最新里程碑在知识库中提供了一个新资源，利用进化建模使工具更加强大。这种方法允许研究人员将从人类基因收集的实验数据与从模式生物（如小鼠和斑马鱼）中获得的相关基因数据结合起来。它提供了更完整的人类基因功能图景，包括填补科学知识的空白，这些空白是由于没有来自人类研究的直接证据。

“我们之前已经积累了一个人类基因功能的庞大知识库，”托马斯说，他也是新论文的通讯作者。“现在，通过添加每个功能在进化中出现的时间信息，我们正在提供一个更完整、更准确、更简洁的人类基因功能描述。”

进化视角

这个新资源是由包括南加州大学凯克医学院在内的全球150多名生物学家组成的团队编制的。自1998年以来，该团队仔细审查了超过175,000篇关于基因功能的科学出版物，寻找在研究良好的生物体和人类基因组中每个基因的基因功能数据——主要是超过20,000个控制关键生物过程的蛋白质编码基因。

在审查文献后，他们根据基因执行的生物学功能，无论是单独还是与其他基因结合，对每个基因进行分类。他们从他们开发的超过40,000个功能目录中选择，这些功能涵盖细胞分裂、细胞信号传导、免疫反应、分子运输等。理解一组基因执行的精确功能可以帮助研究人员了解癌症和其他疾病中出了什么问题，并设计针对性的治疗方法。

这个新的人类基因功能描述资源，称为“PAN-GO功能组”（PAN-GO functionome），将被科学界以相同的方式使用——用于分析组学数据等其他应用——但它将产生更准确的结果，托马斯说。这是因为最近的工作已经利用大规模进化模型（追踪数千个基因和相关蛋白质的进化历史）将知识库中的所有信息整合在一起，创建了一个更完整、更准确的基因功能图景。

在许多情况下，人类基因的实验数据不可用，但科学家们已经在小鼠、大鼠、斑马鱼、果蝇、酵母或大肠杆菌中研究了相关基因。通过了解特定功能（如能量处理或细胞信号传导）何时以及如何进化，研究人员可以利用从其他生物体获得的数据来了解人类基因的功能。

“这有助于我们推断人类基因的功能特征，即使没有来自人类基因本身的实验数据。”托马斯说。

进一步完善知识库

展望未来，基因本体联盟希望研究人员在其分析中使用PAN-GO功能组。这些信息以机器可读格式结构化，允许科学家使用计算工具，如人工智能，快速搜索和使用数据。

联盟还发出了一个行动呼吁：研究人员现在可以通过项目的网站提交关于特定基因更新知识库的建议。众包基因功能知识并以结构化方式分类，确保共享资源随着时间的推移不断改进，并且其见解易于应用。

尽管它是目前最全面的基因功能资源库，但PAN-GO功能组尚未完成。它包含82%的蛋白质编码基因的数据，但其他18%的基因——大约3,600个基因——没有实验数据，其生物学功能仍然未知。

“我们现在有了一个真正缺失信息的图景，这可能是未来这一领域研究的重点。”