酶对生命至关重要。它们是大自然的小催化剂。在肠道里,它们帮助我们消化食物。它们可以增强香水的香味,或者用更少的能源使衣物更干净。酶还能制造治疗疾病的有效药物。科学家们自然渴望创造新的酶。在他们的想象中,它们无所不能,从从天空中吸收温室气体到降解环境中的有害毒素。
对新酶的古老探索现在变得容易多了。一个由生物工程师和合成生物学家组成的团队开发了一种计算工作流程,可以设计数千种新酶,预测它们在现实世界中的表现,并在多种化学反应中测试它们的性能——这是一个在计算机上进行的工作流程。他们的研究结果发表在《自然通讯》杂志的一篇新论文中。
斯坦福大学(Stanford University)生物工程学教授、这项新研究的资深作者迈克尔·朱伊特(Michael Jewett)说:“我们已经开发出一种计算过程,使我们能够更快地设计酶,因为我们不需要像现在这样使用活细胞来生产酶。”“相反,我们使用机器学习来预测高度活跃的设计酶,这些设计酶是从计算机上模拟的突变DNA序列中设计出来的,而不是在实验室里手工创建的。我们可以在几天内完成这些实验,而不是几周,或者通常需要几个月。”
从历史上看,科学家们设计新酶的工作必须从自然界已知的酶开始。然后,在实验室中使用真正的转基因细胞,他们反复改变酶,以诱导它们实现研究人员希望实现的理想化学反应。
这些酶变体所需的DNA必须从第三方供应商那里购买。然后必须将DNA人工转移到细胞中以产生感兴趣的酶,然后必须通过一系列化学反应纯化和测试。有时,朱伊特说,可能需要数千次的迭代,甚至数万次或数十万次,才能找到一种酶,这种酶可能会产生科学家想要达到的化学效果。
“我们现在可以在电脑上完成所有这些,”他补充道。“我们不必运行10,000个化学反应来迭代地提高酶的活性,而是可以使用机器学习模型来预测高度活跃的变体,这些变体仍然可以做得很好。”
酶工程这门科学并不新鲜,只有机器学习在该领域的应用。朱伊特及其同事将其称为“定向进化”。他们走的是自然界多年来经历的过程的捷径,DNA偶然发生突变,产生新的酶,有时会产生重要的结果。毕竟,酶只是由一长串氨基酸组成的蛋白质。DNA指导琴弦的产生。改变DNA;改变酶。
“蛋白质的结构——由分子中氨基酸的序列产生——决定了它们的功能。定向进化是一个有几十年历史的领域,它已经发展出突变氨基酸以改变蛋白质功能的能力。我们只是利用机器学习和计算机加快了这个过程。”该团队工作流程的一个关键特点是能够在没有完整生物体的无细胞系统中合成和测试蛋白质酶,这进一步加速了这一过程。
作为概念验证,Jewett和他的同事使用他们的新工具以90%的产量合成了一种小分子药物——比最初的10%产量有所提高——并表明它可以应用于并行构建多种专门的酶来制造8种额外的治疗方法。他现在正在寻找一家制药合作伙伴来进一步开发该模型。更广泛地说,Jewett的团队有兴趣扩展他的机器学习模型,以指导许多不同类型化学反应的催化或酶功能。在这篇论文中,研究小组只研究了酰胺键的形成,这是一种无处不在的化学反应,在从制药到食品的许多不同领域都很重要。但还有其他机会。
“我们可以在可持续性和生物经济方面探索多种机会。你可以开始考虑从环境中降解毒素的分子类别,提高富含蛋白质的食物的生物利用度,或者其他需要高压,昂贵的组件或有毒反应的现有过程,使它们更快,更安全,更便宜“。
Jewett及其同事的研究并非没有障碍,最明显的是缺乏数据。“高质量、高数量的功能性数据仍然是一个挑战,”他说。“我们都知道人工智能需要大量数据,但目前还没有。”
Jewett说,在定向进化和生物催化的背景下,为进行这些化学反应生成大量数据在科学文献中并不常见。生成数据的过程太慢了。但是,随着科学越来越多地使用机器学习模型来加速设计,这些数据需求只会增加,Jewett说,并指出了未来的工作。在这项研究中,朱伊特最终能够评估大约1000种产品和约10000种化学反应中的大约3000种酶突变,但他的数据需求要大得多。
“如果我想改变一种酶来测试成千上万的变异,”Jewett说,并提供了一个具体的例子,“我可能会在那里找到论文,但他们可能会报告10个变异的突变数据。”不是数百人。不是成千上万。不是成千上万的反应,而是10个。所以,我们在数据方面还有一段路要走,但我们会到达那里。这是第一步。”