西北大学生物物理学家开发了一种新的计算工具,用于识别糖尿病、癌症和哮喘等复杂疾病背后的基因组合。
与单基因疾病不同,这些疾病受多个基因共同作用的网络影响。然而,可能的基因组合数量极其庞大,这使得研究人员难以确定导致疾病的具体基因组合。
新方法利用生成式人工智能 (AI) 模型,放大有限的基因表达数据,使研究人员能够解析导致复杂性状的基因活动模式。这些信息有望带来新的、更有效的疾病治疗方法,涉及与多个基因相关的分子靶点。
该研究将于 6 月 9 日那周在《美国国家科学院院刊》上发表。
“许多疾病是由多种基因组合决定的,而不仅仅是单一基因,”该研究的资深作者、西北大学的 阿迪尔森·莫特 (Adilson Motter)说道。“你可以将癌症等疾病比作飞机失事。在大多数情况下,飞机坠毁需要发生多次故障,而不同的故障组合可能会导致类似的结果。这使得查明病因的任务变得复杂。我们的模型通过识别关键因素及其共同影响,有助于简化问题。”
莫特是复杂系统方面的专家,现任西北大学 温伯格文理学院查尔斯·E·莫里森和艾玛·H·莫里森物理学教授,以及网络动力学中心 主任 。该研究的其他作者均来自 莫特的实验室, 包括博士后研究员本杰明·库兹涅茨-斯佩克、研究生布杜卡·奥格诺尔和研究员托马斯·怀托克。
目前的方法还不够完善
几十年来,研究人员一直在努力揭示人类复杂特征和疾病的遗传基础。即使是身高、智力和发色等非疾病特征,也依赖于基因的集合。现有的方法,例如全基因组关联研究,试图找到与某一特征相关的单个基因。但它们缺乏统计学能力,无法检测基因群体的集体效应。
“人类基因组计划表明,我们的基因数量仅为单细胞细菌的六倍,”莫特说。“但人类比细菌复杂得多,单凭基因数量无法解释这一点。这凸显了多基因关系的普遍性,以及基因之间的相互作用必然导致了复杂生命的产生。”
“识别单个基因仍然很有价值,”Wytock补充道。“但只有极小一部分可观察到的性状或表型可以用单个基因的变化来解释。相反,我们知道表型是多个基因共同作用的结果。因此,多个基因通常会导致性状的变异,这是有道理的。”
不是基因而是基因表达
为了帮助弥合基因组成(基因型)和可观察性状(表型)之间长期存在的知识差距,研究团队开发了一种将机器学习与优化相结合的复杂方法。
该模型名为转录组范围条件变分自编码器 (TWAVE),利用生成式人工智能从有限的人类基因表达数据中识别模式。因此,它可以模拟患病和健康状态,从而将基因表达的变化与表型的变化相匹配。该模型并非孤立地研究单个基因的影响,而是识别共同导致复杂性状出现的基因群。然后,该方法使用优化框架来精确定位最有可能使细胞状态从健康状态转变为患病状态或从患病状态转变为健康状态的特定基因变化。
“我们关注的不是基因序列,而是基因表达,”Wytock 说。“我们利用临床试验数据训练模型,因此我们知道哪些表达谱代表健康或患病。对于少数基因,我们也有实验数据可以告诉我们网络在基因开启或关闭时的反应,我们可以将这些数据与表达数据进行匹配,从而找到与疾病相关的基因。”
关注基因表达有多重益处。首先,它绕过了患者的隐私问题。基因数据——一个人的实际DNA序列——本质上是个体独有的,它提供了高度个性化的健康蓝图、遗传倾向和家庭关系。另一方面,表达数据更像是细胞活动的动态快照。其次,基因表达数据隐含地考虑了环境因素,这些因素可以“上调”或“下调”基因表达以执行各种功能。
“环境因素可能不会影响DNA,但它们肯定会影响基因表达,”莫特说。“因此,我们的模型的优势在于可以间接解释环境因素。”
个性化治疗之路
为了证明 TWAVE 的有效性,研究团队在几种复杂疾病中对其进行了测试。该方法成功识别出导致这些疾病的基因,其中一些基因被现有方法遗漏。TWAVE 还揭示,不同的基因组合可以在不同的人群中导致同一种复杂疾病。这一发现表明,可以根据患者特定的疾病遗传驱动因素制定个性化治疗方案。
“同一种疾病在两个不同的个体身上可能表现相似,”莫特说。“但原则上,由于遗传、环境和生活方式的差异,每个人可能都涉及一组不同的基因。这些信息可以指导个性化治疗。”