空间多组学技术正在改变我们对生物组织的认识。然而,由于数据量大、数据类型不统一以及缺乏灵活的数据结构,单模态和多模态空间组学数据集的处理仍是一项挑战。
近日,欧洲分子生物学实验室和亥姆霍茨慕尼黑中心等机构的研究人员开发出一款名为SpatialData的新工具,这是一种通用的数据框架,方便科学家们以统一的方式表示各种空间组学技术的数据。
这项题为“SpatialData: an open and universal data framework for spatial omics”的研究成果发表在《Nature Methods》杂志上,为空间注释以及跨模态整合与分析提供了便利,其实用性在多个案例中得到了证明。
过去十年里,科学家们开发出多种技术,对组织、细胞和亚细胞区室进行空间可视化。不过,每种技术都有一定的侧重。例如,10x Genomics的Visium平台可捕获组织中所有基因的表达信息,但不能提供单细胞分辨率。
相比之下,10x Genomics的Xenium分析以及Vizgen的MERFISH或MERSCOPE平台可生成亚细胞分辨率的基因表达图谱。然而,这些分析目前仅限于几百个预先选择的基因。此类技术的数量还在不断增加,每种技术只能提供全景中的一小部分。
空间组学技术面临的挑战
空间技术的多样性反映在计算方面就是文件格式的多样性:每种技术都有自己的存储格式,而同一种技术生成的数据往往可以用多种格式存储。
实际上,这给空间组学数据的分析带来了一些挑战。数据可视化和分析方法通常是为特定技术量身定制的,这就限制了数据兼容性,并且很难将不同的方法整合到单个分析流程中。
同时,组学技术产生了海量数据(TB级图像、数百万个细胞、数十亿个单分子),需要优化的解决方案。因此,空间生物学迫切需要一个通用的框架来整合不同实验和技术的数据,并提供对健康和疾病的整体见解。这正是SpatialData发挥作用的地方。
SpatialData通用框架
SpatialData统一并整合了不同组学技术的数据,将先进的技术与一个允许访问和操作数据的框架连接起来。
共同第一作者、欧洲分子生物学实验室的Luca Marconato称:“我们开发出SpatialData框架,以缓解研究空间生物学时的数据表示难题,这样研究人员就可以专注于生物分析,不被繁琐的数据操作所拖累。这个框架提供了统一的表示方法,方便了空间组学数据的处理。”
研究人员可以利用这个工具来导入数据,并执行数据表示、处理和可视化等任务。此外,它还提供了对数据进行交互式注释的选项,将其保存为与语言无关的格式,从而促进了将不同编程语言或分析社群的多个方法相结合的分析策略出现。
“在这篇论文中,我们阐述了SpatialData的三个重要特征,”共同第一作者、苏黎世联邦理工学院的博士后研究员Kevin Yamauchi解释说。
“首先,我们提出了所有空间组学技术的标准化接口和统一存储格式。其次,我们采用统一的表示方法对多模态信号进行整合。在此,我们跨模态传输注释,并利用这些注释来定量信号。最后,我们提出了一种对(病理)图像进行交互式注释的方法,并利用这些注释来分析相关的分子谱。”
在乳腺癌中的应用
作为概念验证,研究团队使用SpatialData框架重新分析了10x Genomics的多模态乳腺癌数据集。这个数据集包括同一块乳腺癌组织的连续切片,其中每个切片采用不同的技术进行分析,包括Visium、Xenium和单独的scRNA-seq数据集。这项研究证明了这些技术的互补性。
欧洲分子生物学实验室的博士研究生Elyas Heidari表示:“通过整合10x Xenium和scRNA-seq数据,我们将细胞类型映射到空间中。接下来,我们利用10x Visium平台来鉴定空间中的癌症克隆。最后,我们利用H&E染色的显微镜图像来识别感兴趣的区域进行病理学注释。这项分析成功展示了SpatialData在解锁空间数据集的多模态分析方面的独特应用。”
未来,科学家们可能会采用不同的技术来分析患者的肿瘤,然后通过SpatialData统一数据,以获得对肿瘤的整体认识。此外,医生们还可以通过交互式界面对数据进行注释,从而对特定肿瘤区域和特征进行详细分析,这有望促进个性化疗法的开发。