在最近发表在《Nature》杂志上的一项研究中,加拿大和美国的研究人员开发了单细胞相似性(Similarity),这是一个快速、可解释地搜索单细胞或单核核糖核酸-seq (sc/snRNA-seq)数据的框架。这个框架使得在人类细胞图谱中发现相似的细胞状态成为可能。
sc/snRNA-seq已经在各种条件下分析了超过1亿个细胞,为在发育、组织和疾病中连接细胞状态提供了前所未有的机会。然而,由于数据集协调、定义共享表示、缺乏健壮的相似性度量或可扩展的搜索方法等方面的挑战,大规模分析仍然受到限制。
目前的方法往往不能泛化跨数据集,不能有效地查询大量的图谱相似的细胞概况。需要进一步的研究来开发基础模型,以实现准确、可扩展和可解释的搜索,释放单细胞图谱的全部潜力,以推进生物学发现。
scRNA-seq已经在各种组织、条件和疾病中分析了数百万个单个细胞,为跨环境连接细胞状态提供了变革的机会。然而,数据集之间的有效比较仍然有限,因为在协调不同数据、定义共同表示和制定准确的度量来量化细胞相似性方面存在挑战。
在保留数据集特定信息的同时,现有模型通常无法泛化或有效地搜索大型地图集以获得可比较的细胞状态。
度量学习是一种成功应用于图像处理等领域的技术,它提供了一种很有前途的解决方案。通过将细胞轮廓嵌入到共享的低维空间中,可以在大量数据集中识别生物学上相似的细胞。这样的表示可以在不同的环境中对细胞进行可扩展、可解释的搜索,促进跨数据集比较和生物学发现
相似性证明了不同单细胞分析平台的通用性。虽然主要是在10x Genomics Chromium数据上进行训练,但它可以有效地嵌入和注释来自多个平台的细胞谱,包括scRNA-seq和snRNA-seq数据集。
例如,除了传统树突状细胞(cDCs)和浆细胞样树突状细胞(pDCs)等罕见细胞类型外,在七个平台上分析的人外周血单个核细胞(PBMC)样本显示出一致的跨平台注释精度。
虽然嵌入距离存在微小差异,特别是对于非10倍平台,如RNA模板测序的5'端切换机制(SMART-Seq2),但相似性保持了高性能,显示了其对不同数据源的适应性。
相似性的一个关键优势是它能够集成数据集,而不需要显式的批量校正。通过量化单个细胞的表示置信度,该模型识别异常值并评估其对新数据的泛化。例如,低置信度注释与训练数据中表现不佳的组织(如胃和膀胱)相关。这种能力使得构建一个跨越30个人体组织的图谱和促进泛组织比较成为可能。
该模型还通过其基于嵌入的相似性度量在注释细胞类型方面表现出色。相似性独立地注释单个细胞,避免了聚类和高效地检索最相似细胞的需要。它达到了与现有方法竞争的准确性,如使用变分推理(scANVI)和CellTypist的单细胞注释,甚至匹配由蛋白质标记支持的细粒度注释。例如,与作者提供的标签相比,相似度正确注释了健康肾脏样本中86.5%的细胞,与组织特异性模型相当。
使用集成梯度验证了相似性的可解释性,该梯度确定了关键基因对细胞类型注释的贡献。这些基因属性与主要细胞类型的已知标记相一致,例如区分肺泡2型(AT2)细胞的表面活性剂基因。这证明了相似性在没有事先了解细胞类型特异性特征的情况下捕获生物学上有意义的特征的能力。
使用纤维化相关巨噬细胞(FMΦs)和间质性肺疾病(ILD)的肌成纤维细胞来测试模型的查询能力。在ILD数据集、癌症和其他纤维化疾病中发现FMΦ-like细胞的相似性,揭示了共享的细胞状态。值得注意的是,它在罕见的情况下发现了FMΦs,例如胰腺导管腺癌(PDAC),这表明它们在纤维化中具有更广泛的相关性。
为了进一步探索其效用,similarity在体外寻找FMΦ-like细胞。令人惊讶的是,它发现在3D水凝胶系统中培养的细胞在转录上与FMΦs相似。实验验证证实了similarity的预测,证明了其在体外鉴定新的实验条件和模拟疾病相关细胞状态方面的潜力。
总之,相似性通过在不同的scRNA-seq和snRNA-seq数据集上进行可扩展和有效的搜索来推进单细胞分析。
它建立在度量学习的基础上,提供细胞谱的注释和查询,利用完整的表达谱来减少来自精选基因签名的偏差。相似性在识别转录相似的细胞方面表现出色,有助于发现新的状态,如FMΦs和跨疾病的肌成纤维细胞。
它能够推广到未见过的数据集,其开源可用性使其成为探索人类细胞图谱的基础工具,支持各种生物研究,并揭示对人类生物学和疾病机制的见解。