单细胞基因组学能够以高分辨率了解人体背景下的每个细胞。目前,在组装由单细胞研究产生的不同数据集时,一个挑战是没有统一的系统来命名和组织数据。为了解决这个问题,Wellcome Sanger研究所的研究人员和合作者开发了CellHint,它可以统一独立实验室生产的细胞类型。然后CellHint将数据放入一个已定义的图表中,该图表显示了单元格亚型之间的关系,给出了在不同数据集中识别的所有单元格的全图。
它可以用来为人类健康和疾病的研究创建一个统一的数据集。
Wellcome Sanger研究所,剑桥大学,EMBL的欧洲生物信息学研究所(EMBL-EBI)的研究人员和合作者开发了这个工具,被称为CellHint。CellHint使用机器学习来统一世界各地产生的数据,使其能够被更广泛的研究团体访问,从而有可能推动新的发现。
在发表在《Cell》杂志上的一项新研究中。
这篇文章介绍了一种名为CellHint的工具,它是一种基于预测性聚类树的工具,用于解决不同数据集中细胞类型注释分辨率和技术偏差的差异。CellHint能够准确量化细胞间的转录组相似性,并将细胞类型放置在一个关系图中,该图层次地定义了共享和独特的细胞亚型。在多个免疫学数据集上的应用,它重现了专家注释的结果。
研究人员利用CellHint揭示了健康和患病肺细胞状态之间未被充分探索的联系。他们研究了8种疾病,如间质性肺疾病和慢性阻塞性肺疾病,并展示了该工具可能带来的好处。他们还将CellHint应用于来自38个数据集的12个组织,提供了一个包含约370万个细胞的深度策划的跨组织数据库和各种用于自动细胞注释的机器学习模型。
通过快速跨数据集集成,利用协调的细胞类型和细胞层次结构,发现了成人海马中被忽视的细胞类型。
CellHint是一种强大的工具,能够实现标准化的人类细胞图谱构建,并在跨组织的数据集之间实现协调的细胞类型注释。Cellhint是全球免费提供的,是作为人类细胞图谱计划的一部分创建的,该计划旨在绘制人体中每种细胞类型的地图,以改变对健康和疾病的理解。
来自威康桑格研究所的第一作者Chuan Xu博士说:“CellHint从其他工具中脱颖而出,因为它充分利用了来自个别研究的经常不一致但有价值的细胞注释信息,以实现生物学驱动的数据整合。我们很高兴有了CellHint,来自独立实验室的细胞可以被重新注释,研究人员可以利用结果信息将每个细胞置于原始研究之外的不同环境中。我们希望这个工具将极大地促进分子和细胞数据和信息在实验室中的再利用,有可能推动生物学的新发现。”
Wellcome Sanger研究所的资深作者、人类细胞图谱的联合创始人Sarah Teichmann博士说:“人类细胞图谱正在创建人体所有细胞的详细参考图谱,以改变我们对生物学、健康和疾病的理解,单细胞技术支撑着这一雄心勃勃的项目。全球合作和开放数据共享对于实现具有代表性的人类细胞图谱的目标至关重要,这将使全世界的人类受益。CellHint实现了单细胞数据的统一和共享,这使得全球研究界能够为世界各地正在进行的研究做出贡献并从中受益,并有助于推动健康和医疗保健的进步。”
这项研究是国际人类细胞图谱(HCA)联盟的一部分,该联盟旨在绘制人体中每种细胞类型的图谱,作为了解人类健康以及诊断、监测和治疗疾病的基础。HCA是一个由科学家领导的开放联盟,是全球研究人员、研究所和资助者的共同努力,拥有来自全球99个国家的3100多名成员。HCA可能会影响生物学和医学的各个方面,推动转化发现和应用,最终引领精准医学的新时代。跨人类细胞图谱数据集的自动细胞类型协调和整合。
Automatic cell-type harmonization and integration across Human Cell Atlas datasets