大规模的蛋白质和基因分析极大地扩展了癌症相关蛋白质和基因突变的范围,但很难辨别它们是在疾病中发挥积极作用还是无辜的旁观者。在发表在《自然癌症》(Nature Cancer)杂志上的一项研究中,贝勒医学院(Baylor College of Medicine)的研究人员揭示了一种强大而公正的基于机器学习的方法,称为FunMap,用于评估癌症相关突变和未充分研究的蛋白质的作用,对推进癌症生物学和告知治疗策略具有广泛的意义。
贝勒大学莱斯特和苏·史密斯乳房中心的分子和人类遗传学教授、通讯作者Bing Zhang博士说:“获得与癌症相关的基因和蛋白质的功能信息是朝着更好地了解疾病和确定潜在治疗靶点迈出的重要一步。”
“我们获得这些基因和蛋白质功能洞察的方法包括使用机器学习来开发一个映射它们功能关系的网络,这就像,我可能对你一无所知,但如果我知道你在LinkedIn上的联系,我就能推断出你在做什么。”
该团队开发了FunMap,这是一个由10,525个基因组成的功能网络,使用有监督的机器学习方法构建,该方法集成了最近由临床蛋白质组学肿瘤分析联盟(CPTAC)泛癌症工作组统一的11种癌症类型的蛋白质数据集和RNA测序数据。
Bing Zhang说:“通过FunMap,我们在10525种蛋白质中发现了196800种关联,这是一个全面、公正的蛋白质组学覆盖范围和高水平的功能相关性。我们的方法与以前的基因共表达网络研究之间的两个关键区别是,首先,将癌症蛋白数据与mRNA表达数据集成,其次,应用监督机器学习来协同所有数据集,以最大限度地提高预测能力。出乎意料的是,我们的方法在区分功能相关和不相关的基因对方面优于蛋白质-蛋白质相互作用网络。”
通过网络分析,FunMap揭示了与癌症标志和临床特征相关的蛋白质模块和分层模块化组织,预测了未被研究的癌症蛋白质的功能,对已建立的癌症驱动因素提供了更深入的了解,并识别了低突变频率的驱动因素。
“超过200个基因在癌症中高度过表达或低表达,但我们对它们在疾病中的具体作用知之甚少,当我们在我们的网络中绘制这些基因时,我们能够看到邻近区域并对它们的功能做出预测。”
例如,未被研究的基因MAB21L4在三种类型的癌症肿瘤中的表达明显低于正常水平。FunMap显示,该基因的网络邻域富集了与上皮细胞分化相关的基因,其抑制在肿瘤进展中起着关键作用。临床肿瘤分级数据,以及最近的一项研究表明,MAB21L4的缺失阻断了鳞状细胞癌的分化,从而推动了鳞状细胞癌的发展,这为支持MAB21L4的抑瘤作用提供了强有力的证据。
此外,利用前沿的深度学习方法和FunMap发现了许多以前未被认识到的低突变频率的癌症驱动因素,包括基因敲除实验数据支持的LGI3的新型肿瘤抑制作用。
这项研究强调了整合机器学习和蛋白质基因组分析的巨大潜力,可以更深入地了解复杂的癌症系统。通过生成一个全面的功能网络,该方法为癌症功能基因组学研究提供了一个强大的框架,为突变和癌症相关蛋白提供了有价值的见解。
“这些发现可以极大地帮助确定临床转化的优先目标,最终有助于开发更有效的癌症治疗方法。”
FunMap Python包是完全开源的,可以从Python包索引(https://pypi.org/project/funmap)下载。