科学家使用的许多统计模型和算法都可以想象成一个“黑匣子”。这些模型是提供准确预测的强大工具,但其内部工作原理不容易解释或理解。在一个以深度学习为主导的时代,可以处理的数据量不断增加,奥地利科学技术研究所(ISTA)的物理学家兼博士生Natália Ruiková选择了退后一步。至少在基因组数据分析的背景下。
与最近毕业于ISTA的Michal Hledík和Ga?per tka
破解人类基因组
1990年,人类基因组计划启动,以完全解码人类dna——定义人类的遗传蓝图。快进到2003年,当这个项目完成时,它为科学、医学和技术的许多突破铺平了道路。通过破译人类遗传密码,科学家们有望更多地了解与该基因脚本中特定突变和变异有关的疾病。考虑到人类基因组由大约2万个基因和更多的碱基对(蓝图上的字母)组成,庞大的统计能力变得至关重要。这导致了所谓的“全基因组关联研究”(GWAS)的发展。
GWAS通过识别可能与生物特征(如身高)相关的基因变异来解决这个问题。重要的是,它们还包括各种疾病的倾向。为此,基本的统计原理非常简单:参与者被分为两组——健康的和生病的。然后对他们的DNA进行分析,以检测变异——基因组的变化——这些变异在受疾病影响的人群中更为明显。
基因的相互作用
当全基因组关联研究出现时,科学家们希望在与疾病相关的已知基因中发现一些突变,从而解释健康和患病个体之间的差异。然而,事实要复杂得多。Ruiková说:“有时候,有成百上千的突变与一种特定的疾病有关。”“这是一个令人惊讶的发现,与我们对生物学的理解相冲突。”
单独来看,每种突变对患病风险的影响或贡献都很小。然而,总的来说,它们可以更好地解释,但不能完全解释为什么有些人会患上这种疾病。这类疾病被称为“多基因疾病”。例如,2型糖尿病是多基因的,因为它不能归因于单一基因;相反,它涉及数百个突变。其中一些突变影响胰岛素产生、胰岛素作用或葡萄糖代谢,而大多数突变位于以前与糖尿病无关或具有未知生物学功能的基因组区域。
通用模型
2017年,斯坦福大学的埃文·博伊尔(Evan a . Boyle)及其同事提出了一个名为“全基因模型”的新概念框架。他们提出了一种解释为什么如此多的基因会导致疾病:细胞拥有将不同功能的基因联系起来的调节网络。
“由于基因是相互联系的,一个基因的突变会影响其他基因,因为突变效应会通过调控网络传播。”由于这些网络,调控系统中的许多基因最终会导致疾病。然而,直到现在,这个模型还没有数学公式,仍然是一个难以检验的概念假设。在他们最新的论文中,Ruiková和她的同事介绍了一种新的基于全基因模型的数学形式化,称为“定量全基因模型”(QOM)。
统计学与生物学的结合
为了证明新模型的潜力,他们需要将该框架应用于一个具有良好特征的生物系统。他们选择了常见的实验室酵母模型酿酒酵母,更广为人知的是啤酒酵母或面包酵母。它是一种单细胞真核生物,这意味着它的细胞结构与人类等复杂生物相似。“在酵母中,我们对相互连接基因的调节网络的结构有了相当好的了解。”
利用他们的模型,科学家们预测了基因表达水平——基因活动的强度,表明有多少来自DNA的信息被积极利用——以及突变如何通过酵母的调节网络传播。预测非常有效:该模型不仅识别出相关基因,还能清楚地指出哪种突变最有可能导致特定的结果。
多基因疾病的拼图
科学家们的目标不是在预测性能上超越标准的GWAS,而是通过使模型具有可解释性而走向不同的方向。标准的GWAS模型就像一个“黑盒子”,提供了一个特定突变与疾病联系频率的统计说明,而新模型还提供了一个事件链因果机制,说明该突变如何导致疾病。
在医学上,了解生物学背景和这种因果途径对寻找新的治疗方案具有巨大的意义。尽管该模型目前还远未应用于任何医学领域,但它显示出了潜力,尤其是在了解更多多基因疾病方面。“如果你对调控网络有足够的了解,你也可以为其他生物体建立类似的模型。我们观察了酵母中的基因表达,这只是第一步,也是原理的证明。现在我们了解了什么是可能的,人们可以开始考虑将其应用于人类遗传学”。