从理论到治疗:MIT在蛋白质优化方面的突破

麻省理工学院研究人员计划寻找可用于测量大脑电活动的蛋白质。

为了使蛋白质具有有用的功能，研究人员通常从具有理想功能的天然蛋白质开始，例如发出荧光灯，然后对其进行多轮随机突变，最终产生优化版本的蛋白质。

这个过程产生了许多重要蛋白质的优化版本，包括绿色荧光蛋白(GFP)。然而，对于其他蛋白质，已证明很难产生优化版本。麻省理工学院的研究人员现在已经开发出一种计算方法，可以基于相对少量的数据，更容易地预测导致更好蛋白质的突变。

计算蛋白质设计的进展

利用这个模型，研究人员产生了带有突变的蛋白质，这些突变被预测会导致改进版本的绿色荧光蛋白和来自腺相关病毒(AAV)的蛋白质，AAV用于为基因治疗提供DNA。他们希望它也可以用于开发神经科学研究和医学应用的额外工具。

“蛋白质设计是一个难题，因为从DNA序列到蛋白质结构和功能的映射非常复杂。序列中可能有一个很大的蛋白质发生了10次变化，但每一次中间变化都可能对应于一个完全没有功能的蛋白质。这就像试图找到通往山脉流域的路，但沿途有崎岖的山峰挡住了你的视线。“目前的工作试图使河床更容易找到，”Ila Fiete说，她是麻省理工学院大脑和认知科学教授，麻省理工学院麦戈文大脑研究所的成员，K. Lisa Yang综合计算神经科学中心主任，也是该研究的资深作者之一。

麻省理工学院人工智能与健康工程学院杰出教授Regina Barzilay和麻省理工学院电气工程与计算机科学托马斯·希贝尔教授Tommi Jaakkola也是关于这项工作的一篇开放获取论文的资深作者，该论文将于5月在国际学习表征会议上发表。麻省理工学院的研究生Andrew Kirjner和Jason Yim是这项研究的主要作者。其他作者包括麻省理工学院博士后Shahar Bracha和捷克技术大学研究生Raman Samusevich。

优化蛋白质

许多天然存在的蛋白质都具有可用于研究或医学应用的功能，但它们需要一点额外的工程来优化它们。在这项研究中，研究人员最初对开发可在活细胞中用作电压指示器的蛋白质感兴趣。这些蛋白质是由一些细菌和藻类产生的，当检测到电势时就会发出荧光。如果将这种蛋白质用于哺乳动物细胞，研究人员就可以在不使用电极的情况下测量神经元的活动。

尽管数十年的研究一直在研究如何让这些蛋白质在更快的时间尺度上产生更强的荧光信号，但它们还没有变得足够有效，无法广泛使用。布拉查在麦戈文研究所爱德华·博伊登的实验室工作，他联系了Fiete的实验室，看看他们是否能在一种计算方法上合作，这种方法可能有助于加快优化蛋白质的过程。

Fiete说:“这项工作体现了人类的意外发现，这是许多科学发现的特点。我们了解到，我们对大脑如何学习和优化建模的一些兴趣和工具可以应用于完全不同的蛋白质设计领域，正如博伊登实验室所做的那样。”

对于研究人员可能想要优化的任何给定蛋白质，通过在序列中的每个点交换不同的氨基酸，可以产生几乎无限数量的可能序列。有这么多可能的变体，不可能用实验测试所有的，所以研究人员转向计算建模，试图预测哪些是最有效的。

计算建模与预测

在这项研究中，研究人员着手克服这些挑战，利用来自GFP的数据开发和测试一个计算模型，该模型可以预测更好的蛋白质版本。

他们首先在实验数据上训练一种被称为卷积神经网络(CNN)的模型，这些实验数据包括GFP序列及其亮度——他们想要优化的特征。

该模型能够基于相对少量的实验数据(来自大约1000个GFP变体)创建一个“适应度景观”——一个三维地图，描绘了给定蛋白质的适应度以及它与原始序列的差异。

这些景观包含代表更适合蛋白质的峰和代表不太适合蛋白质的谷。预测一种蛋白质达到适合度峰值所需要遵循的路径是很困难的，因为通常一种蛋白质在达到附近的更高适合度峰值之前，需要经历一种使其不太适合的突变。为了克服这个问题，研究人员使用了一种现有的计算技术来“平滑”适配景观。

一旦景观中的这些小凸起被平滑，研究人员就会重新训练CNN模型，并发现它能够更容易地达到更高的适应度峰值。该模型能够预测优化后的GFP序列，其中含有多达7种不同的氨基酸，与他们开始使用的蛋白质序列相比，其中最好的蛋白质估计比原始蛋白质更适合2.5倍。

Kirjner说:“一旦我们有了这个代表模型认为在附近的景观，我们就把它平滑，然后我们在更平滑的景观版本上重新训练模型。现在从你的起点到顶端有一条平滑的路径，现在模型可以通过迭代地进行小改进来达到这一目标。对于不平滑的风景来说，这通常是不可能的。”

概念验证

研究人员还表明，这种方法在鉴定腺相关病毒(AAV)的病毒衣壳的新序列方面效果很好，AAV是一种通常用于传递DNA的病毒载体。在这种情况下，他们优化了衣壳包装DNA有效载荷的能力。

Bracha说:“我们使用GFP和AAV作为概念验证，表明这是一种适用于非常有特征的数据集的方法，正因为如此，它应该适用于其他蛋白质工程问题。”

研究人员现在计划将这种计算技术用于Bracha在电压指示蛋白上产生的数据。

“几十个实验室已经为此研究了20年，但仍然没有更好的东西，”她说。“我们希望，现在通过生成更小的数据集，我们可以在计算机上训练一个模型，并做出比过去20年的人工测试更好的预测。”

参考文献:“Improving Protein Optimization with Smoothed Fitness Landscapes” by Andrew Kirjner, Jason Yim, Raman Samusevich, Shahar Bracha, Tommi Jaakkola, Regina Barzilay and Ila Fiete, 3 March 2024, Quantitative Biology > Biomolecules.