Alu元件是灵长类动物特有且重要的重复序列,与癌细胞有着不同程度的关联。然而,由于重复性带来的技术挑战,它的生物标志物潜力往往被忽视。约翰霍普金斯大学的研究人员近日开发出一种机器学习方法来分析人体内的Alu元件。
这篇题为“Machine learning to detect the SINEs of cancer”的论文发表在《Science Translational Medicine》杂志上。研究表明,Alu元件可能蕴含着重要信息,可提高早期癌症检测的可能性。
Alu重复序列是基因组中短分散重复序列(SINE)家族中的一员,约有50万份拷贝,每份拷贝长度约为300 bp。不过,无论癌症在何处发生,人类血浆中Alu元件的比例都会发生变化。
主要作者、约翰霍普金斯大学的肿瘤学助理教授Christopher Douville博士称:“血液检测有望在人们出现任何症状之前发现癌症。然而,通过机器学习来分析结果不一定能带来长期成功,因为在这些复杂模型中,微小的波动会产生截然不同的预测结果。”
Douville博士及其同事之前开发出一种方法来检测癌症中的非整倍体,即染色体拷贝数改变。这种方法通过液体活检来测定非整倍体。不过,他们观察到一种无法解释的信号,该信号能够区分癌症与非癌症,但无法用染色体的增加或缺失来解释。
于是,研究团队决定将这种检测方法(可评估DNA中35万个重复元件)与无偏的机器学习方法相结合。他们开发出一种名为A-PLUS(Alu Profile Learning Using Sequencing)的模型。
研究人员采集了3,105名实体瘤患者和2,073名对照的样本。研究涉及到11种癌症类型和7,615份血液样本。他们将癌症和对照样本预设为四个队列,用于模型训练、分析物整合、阈值确定和验证。
A-PLUS的特异性达到98.5%,这意味着他们可以最大限度地减少假阳性检测结果。“这在筛查无症状患者时至关重要,人们不会被错误地告知患有癌症,” Douville博士说。
在独立的验证队列中,将A-PLUS与非整倍体和8种常见的蛋白标志物相结合,检测癌症的灵敏度为51%,特异性为98.9%。对癌症检测贡献最大的重复DNA类型是AluS亚家族元件。癌症患者血浆中的AluS含量比平常少。
Douville解释说,尽管Alu元件占人类及其他灵长类动物DNA中的11%,但长期以来一直被认为很难作为生物标志物。“它们很短,且重复性高,在技术上很难。但这项研究表明,检测血浆中的重复DNA是经济有效的,可加强早期癌症检测,”他说。
研究人员认为,基于Alu元件的癌症检测能够很好地补充现有的癌症检测工具箱。下一步是优先选择最具前景的生物标志物,并将它们整合在一起。