在生命科学领域,蛋白质设计犹如"分子乐高",科学家们试图通过精确排列氨基酸序列来构建具有全新功能的蛋白质。然而,当这些蛋白质需要与药物、金属离子或DNA等非蛋白分子相互作用时,设计过程就变得异常复杂。传统方法如Rosetta虽然强大,但需要针对每种新配体定制能量参数,耗时且依赖专家经验。而新兴的深度学习方法如ProteinMPNN又无法处理非蛋白原子信息,导致酶活性中心或小分子结合位点的设计成为瓶颈。

华盛顿大学David Baker团队在《Nature Methods》发表的这项研究,通过开发LigandMPNN模型成功解决了这一难题。该模型创新性地将蛋白质骨架和配体原子整合到统一的图神经网络中,实现了在原子精度下设计蛋白质序列和侧链构象。研究证实,该方法不仅大幅提高了设计准确性,还能直接生成可结合的全新蛋白质,为人工酶和生物传感器的开发开辟了新途径。

研究团队采用三大关键技术:1)构建双通道图神经网络,同时处理蛋白质残基(节点)和配体原子(节点)的几何与化学特征;2)开发自回归解码策略,顺序预测氨基酸类型和侧链二面角(χ14);3)使用包含317个小分子、74个核酸和83个金属蛋白的测试集进行严格验证。所有训练数据来自分辨率优于3.5 Å的X射线晶体结构或冷冻电镜结构。

在"结果"部分,研究首先展示了LigandMPNN的卓越性能。通过系统比较Rosetta、ProteinMPNN和LigandMPNN在三种配体环境下的序列恢复率,发现新模型对小分子、核苷酸和金属的结合位点设计准确率分别提升12.9%、16.5%和36.9%。特别值得注意的是,在金属结合位点设计中,模型通过元素类型编码实现了77.5%的惊人准确率。

"原子环境建模机制"揭示了模型成功的关键。研究团队发现,选择25个最近的配体原子构建蛋白质-配体图可获得最佳效果。有趣的是,即使不提供元素类型信息,模型仍能通过几何特征推断小分子和核酸的化学性质,但对金属识别仍依赖明确的元素编码。这种智能的特征提取能力使模型能泛化到训练集中未出现的新配体。

在"侧链构象预测"方面,LigandMPNN同样表现突出。与Rosetta相比,其χ1和χ2角度预测准确率在小分子环境中提升10.1%,且预测速度提高250倍。模型采用混合循环正态分布来表征二面角概率,通过分层解码策略(先χ1后χ4)逐步优化侧链堆积。

最令人振奋的是"实验验证"部分。研究团队用LigandMPNN重新设计了罗库溴铵和胆酸的结合蛋白,成功将非结合者转化为有效结合体,并将已有结合体的亲和力提高100倍。通过X射线晶体学证实,设计蛋白的活性中心与计算模型高度一致,即使对训练集中不存在的罗库溴铵也能准确预测结合模式。

在"讨论"中,作者强调LigandMPNN代表了蛋白质设计范式的转变。其优势体现在三方面:一是通用性,无需为每种新配体调整参数;二是高效性,单CPU上每分钟可设计约70个残基;三是精准性,通过整合全原子环境信息实现更高设计质量。目前该方法已成功应用于DNA结合蛋白、类固醇传感器和抗癌药物载体等多样化设计场景。

这项研究的深远意义在于,它将深度学习与结构生物学完美结合,突破了传统方法在非标准残基和辅因子设计上的局限。正如研究者所言,LigandMPNN不仅是一个工具,更为设计生命系统的基础元件提供了新语言。随着更多复杂功能蛋白的设计成功,这项技术有望在合成生物学、精准医疗和绿色化学等领域产生变革性影响。

提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.