我们是否易患某种疾病在很大程度上取决于我们基因组中无数的变异。然而,特别是在人群中很少发生的遗传变异的情况下,迄今为止难以确定对某些病理特征表现的影响。德国癌症研究中心(DKFZ)、欧洲分子生物学实验室(EMBL)和慕尼黑工业大学的研究人员推出了一种基于深度学习的算法,可以预测罕见遗传变异的影响。该方法可以更精确地区分疾病高危人群,并有助于确定与疾病发展有关的基因。
每个人的基因组与其他人类的基因组有数百万个不同的组成部分。基因组中的这些差异被称为变异。这些变异中有许多与特定的生物学性状和疾病有关。这种相关性通常是通过所谓的全基因组关联研究来确定的。
但在关联研究中,罕见变异的影响在统计上经常被忽视,这种变异在人群中发生的频率仅为0.1%或更低。本研究的第一作者之一布莱恩·克拉克(Brian Clarke)说:“尤其是罕见的变异,往往对生物特征或疾病的表现有更大的影响。”“因此,它们可以帮助识别那些在疾病发展中起作用的基因,然后可以为我们指明新的治疗方法的方向,”共同第一作者伊娃霍特坎普补充说。
为了更好地预测罕见变异的影响,由DKFZ和EMBL的Oliver Stegle和Brian Clarke以及慕尼黑工业大学的Julien Gagneur领导的团队现在开发了一种基于机器学习的风险评估工具。研究人员将这种方法命名为“DeepRVAT”(罕见变异关联测试),这是首次在基因组关联研究中使用人工智能(AI)来破译罕见遗传变异。
该模型最初是在来自UK Biobank的161,000个人的序列数据(外显子组序列)上进行训练的。此外,研究人员还输入了受遗传影响的个体生物特征以及与这些特征相关的基因的信息。用于训练的序列包含大约1300万个变体。对于其中的每一种,都有详细的“注释”,提供了关于各自变异对细胞过程或蛋白质结构可能产生的影响的定量信息。这些注释也是训练的核心组成部分。
经过训练,DeepRVAT能够预测每个个体哪些基因因罕见变异而功能受损。为此,该算法使用单个变体及其注释来计算一个数值,该数值描述了基因受损的程度及其对健康的潜在影响。
研究人员在英国生物银行的基因组数据上验证了DeepRVAT。对于34个被测试的特征,即与疾病相关的血液测试结果,该测试方法发现了352个与相关基因的关联,远远优于所有现有的模型。与其他方法的结果相比,DeepRVAT获得的结果非常稳健,并且在独立数据中具有更好的可重复性。
DeepRVAT的另一个重要应用是评估某些疾病的遗传易感性。研究人员将DeepRVAT与基于更常见遗传变异的多基因风险评分相结合。这大大提高了预测的准确性,尤其是对高风险变异的预测。此外,事实证明,DeepRVAT识别了许多疾病的遗传相关性,包括各种心血管疾病、癌症类型、代谢和神经疾病,而这些疾病是现有测试没有发现的。
“DeepRVAT具有显著推进个性化医疗的潜力。我们的方法不管特征的类型如何,都可以灵活地与其他测试方法相结合,”物理学家和数据科学家Oliver Stegle说。他的团队现在希望尽快在大规模试验中进一步测试风险评估工具,并将其投入应用。例如,科学家们已经与INFORM的组织者取得了联系。这项研究的目的是利用基因组数据为癌症复发的儿童确定量身定制的治疗方法。DeepRVAT可能有助于揭示某些儿童癌症的遗传基础。
“我发现DeepRVAT对罕见疾病应用的潜在影响令人兴奋。罕见病研究的主要挑战之一是缺乏大规模、系统的数据。利用人工智能的力量和英国生物银行的50万个外显子组,我们客观地确定了哪些基因变异对基因功能的影响最大,”慕尼黑工业大学的朱利安·加格尼尔说。
下一步是将DeepRVAT整合到德国人类基因组表型档案(GHGA)的基础设施中,以促进诊断和基础研究中的应用。DeepRVAT的另一个优点是,与同类模型相比,该方法所需的计算能力要少得多。DeepRVAT是一个用户友好的软件包,可以与预先训练的风险评估模型一起使用,也可以与研究人员自己的数据集一起训练,用于专门目的。