但人体有大约2万个基因,基因的扰动可能是基因的组合,也可能是调节基因的1000多个转录因子中的任何一个。由于搜索空间巨大,基因实验成本高昂,科学家们常常难以找到适合其特定应用的理想扰动。
麻省理工学院和哈佛大学的研究人员开发了一种新的计算方法,可以根据比传统方法少得多的实验数量有效地识别最佳遗传扰动。
他们的算法技术利用复杂系统中因素之间的因果关系,比如基因组调控,在每一轮连续实验中优先考虑最佳干预措施。
研究人员进行了严格的理论分析,以确定他们的技术确实确定了最佳干预措施。有了这个理论框架,他们将算法应用于模拟细胞重编程实验的真实生物数据。他们的算法是最有效的。
“很多时候,大规模实验都是根据经验设计的。一个仔细的顺序实验因果框架可能允许用更少的试验确定最佳干预措施,从而降低实验成本。”资深作者Caroline Uhler说,她是电气工程和计算机科学系(EECS)教授,也是麻省理工学院和哈佛大学布罗德研究所埃里克和温迪施密特中心的联合主任,也是麻省理工学院信息和决策系统实验室(LIDS)和数据,系统和社会研究所(IDSS)的研究员。
这篇论文发表在《自然机器智能》杂志上。
主动学习
当科学家们试图为一个复杂的系统设计一种有效的干预措施时,比如在细胞重编程中,他们经常按顺序进行实验。这种设置非常适合使用一种被称为主动学习的机器学习方法。收集数据样本并用于学习包含到目前为止收集到的知识的系统模型。从这个模型中,设计了一个获取函数——一个评估所有潜在干预措施并选择最佳干预措施在下一次试验中进行测试的方程。
这一过程不断重复,直到确定最佳干预措施(或资助后续实验的资源耗尽)。
Sapsis解释说:“虽然顺序设计实验有几种通用的获取功能,但这些功能对如此复杂的问题无效,导致收敛速度非常慢。”
获取功能通常考虑因素之间的相关性,例如哪些基因共表达。但只关注相关性忽略了系统的调节关系或因果结构。例如,基因干预只能影响下游基因的表达,但基于相关性的方法将无法区分上游或下游的基因。
“你可以从数据中了解到一些因果知识,并利用它来更有效地设计干预措施”。
麻省理工学院和哈佛大学的研究人员在他们的技术中利用了这种潜在的因果结构。首先,他们精心构建了一个算法,使其只能学习解释因果关系的系统模型。
然后,研究人员设计了习得函数,这样它就可以根据这些因果关系的信息自动评估干预措施。他们精心设计了这个功能,使其优先考虑最具信息量的干预措施,即最有可能在随后的实验中导致最佳干预措施的干预措施。
“通过考虑因果模型而不是基于相关性的模型,我们已经可以排除某些干预措施。然后,每当你得到新的数据,你就可以学习一个更准确的因果模型,从而进一步缩小干预的空间,”乌勒解释说。
更小的搜索空间,加上获取功能对最具信息量的干预的特别关注,使他们的方法如此高效。
受复杂系统中极端事件研究的启发,研究人员利用一种被称为输出加权的技术进一步改进了他们的获取功能。这种方法谨慎地强调可能更接近最佳干预的干预措施。
Sapsis说:“从本质上讲,我们认为最优干预措施是所有可能的‘极端事件’,次优干预措施是我们针对这些问题开发的一些想法。”
提高效率
他们在模拟的细胞重编程实验中使用真实的生物数据来测试他们的算法。在这项测试中,他们寻找一种基因扰动,这种扰动会导致平均基因表达的预期变化。在多阶段实验的每一步中,他们的习得功能一致地识别出比基线方法更好的干预措施。
“如果你在任何阶段切断实验,我们的效率仍然会比基线更高。这意味着你可以进行更少的实验,得到相同或更好的结果。”
研究人员目前正在与实验学家合作,将他们的技术应用于实验室的细胞重编程。
他们的方法也可以应用于基因组学以外的问题,比如确定消费品的最佳价格,或者在流体力学应用中实现最佳反馈控制。
在未来,他们计划增强他们的优化技术,超越那些寻求匹配期望平均值的技术。此外,他们的方法假设科学家已经理解了他们系统中的因果关系,但未来的工作可以探索如何使用人工智能来学习这些信息。
这项工作的部分资金来自海军研究办公室、麻省理工学院- ibm沃森人工智能实验室、麻省理工学院机器学习与健康j诊所、布罗德研究所的埃里克和温迪施密特中心、西蒙斯研究员奖、空军科学研究办公室和国家科学基金会研究生奖学金。
Journal Reference:
Jiaqi Zhang, Louis Cammarata, Chandler Squires, Themistoklis P. Sapsis, Caroline Uhler. Active learning for optimal intervention design in causal models. Nature Machine Intelligence, 2023; DOI: 10.1038/s42256-023-00719-0