研究人员利用被称为大型语言模型的人工智能模型,在从蛋白质序列预测蛋白质结构方面取得了重大进展。然而,将这种方法应用于抗体已被证明更具挑战性,主要是由于这些蛋白质固有的高度可变性。

为了克服这一限制,麻省理工学院的研究人员开发了一种计算技术,使大型语言模型能够更准确地预测抗体结构。他们的工作可以使研究人员筛选数百万种可能的抗体,以确定那些可用于治疗SARS-CoV-2和其他传染病的抗体。

“我们的方法使我们能够扩大规模,而其他方法则不能,我们实际上可以在大海捞针中找到几根针,”麻省理工学院计算机科学与人工智能实验室(CSAIL)计算与生物学小组的负责人、这项新研究的高级作者之一、西蒙斯数学教授Bonnie Berger说。“如果我们能帮助阻止制药公司使用错误的药物进行临床试验,那真的会节省很多钱。”

这项技术的重点是对抗体的高变区进行建模,也有可能分析来自个体的整个抗体库。这可能有助于研究对艾滋病等疾病有超级反应的人的免疫反应,帮助弄清楚为什么他们的抗体能如此有效地抵御病毒。

Bryan Bryson是麻省理工学院生物工程副教授,也是麻省理工学院和哈佛大学拉贡研究所的成员,也是该论文的资深作者,该论文最近发表在《PNAS》上。前CSAIL研究科学家,现在是杜克大学生物统计学、生物信息学和细胞生物学的助理教授Rohit Singh和Chiho Im ' 22是这篇论文的主要作者。赛诺菲和苏黎世联邦理工学院的研究人员也参与了这项研究。

建模超可变性

蛋白质由长链氨基酸组成,这些氨基酸可以折叠成大量可能的结构。近年来,使用AlphaFold等人工智能程序,预测这些结构变得容易得多。许多这样的程序,如ESMFold和OmegaFold,都是基于大型语言模型的,这些模型最初是为了分析大量文本而开发的,使它们能够学习预测序列中的下一个单词。同样的方法也适用于蛋白质序列——通过了解哪些蛋白质结构最有可能由不同的氨基酸模式形成。

然而,这种技术并不总是对抗体有效,特别是对抗体的一段称为高变区。抗体通常具有Y形结构,这些高变区位于Y形的尖端,在那里它们检测并结合外源蛋白质,也称为抗原。Y型的底部提供结构支持,帮助抗体与免疫细胞相互作用。

高变区长度不同,但通常含有少于40个氨基酸。据估计,通过改变这些氨基酸的序列,人体免疫系统可以产生多达1万亿种不同的抗体,帮助确保身体能够对各种各样的潜在抗原做出反应。这些序列不像其他蛋白质序列那样受到进化的限制,所以大型语言模型很难学会准确地预测它们的结构。

Singh说:“语言模型之所以能很好地预测蛋白质结构,部分原因是进化以某种方式限制了这些序列,而模型可以破译这些限制的含义。这类似于通过查看句子中单词的上下文来学习语法规则,让你弄清楚它的意思。”

为了对这些高度可变的区域进行建模,研究人员在现有的蛋白质语言模型的基础上创建了两个模块。其中一个模块在蛋白质数据库(PDB)中发现的约3000个抗体结构的高变序列上进行了训练,使其能够学习哪些序列倾向于产生相似的结构。另一个模块是根据数据进行训练的,这些数据将3700个抗体序列与它们与三种不同抗原的结合强度联系起来。

由此产生的计算模型,被称为AbMap,可以根据它们的氨基酸序列预测抗体的结构和结合强度。为了证明该模型的实用性,研究人员用它来预测能强烈中和SARS-CoV-2病毒刺突蛋白的抗体结构。

研究人员从一组抗体开始,这些抗体被预测会与这个目标结合,然后通过改变高变区产生数百万个变体。他们的模型能够识别出最成功的抗体结构,比基于大型语言模型的传统蛋白质结构模型要准确得多。

然后,研究人员采取了额外的步骤,将抗体聚类成具有相似结构的组。他们与赛诺菲的研究人员合作,从每一组抗体中选择抗体进行实验测试。这些实验发现,82%的抗体比进入模型的原始抗体具有更好的结合强度。

研究人员说,在开发过程的早期确定各种良好的候选药物可以帮助制药公司避免在测试候选药物上花费大量资金,这些候选药物最终会失败。

“他们不想把所有的鸡蛋放在一个篮子里,”Singh说。“他们不想说,我要用这种抗体,通过临床前试验,然后它被证明是有毒的。他们宁愿有一组好的可能性,并把它们都付诸实践,这样如果其中一个出了问题,他们也有一些选择。”

比较抗体

利用这项技术,研究人员还可以尝试回答一些长期存在的问题,即为什么不同的人对感染的反应不同。例如,为什么有些人会患上更严重的新冠病毒,为什么有些接触过艾滋病毒的人从未被感染?

科学家们一直试图通过对来自个体的免疫细胞进行单细胞RNA测序并进行比较来回答这些问题——这一过程被称为抗体库分析。先前的研究表明,来自两个不同人的抗体库可能只有10%的重叠。然而,测序并不能像结构信息那样提供抗体性能的全面图像,因为具有不同序列的两种抗体可能具有相似的结构和功能。

新模型可以通过快速生成个体体内所有抗体的结构来帮助解决这个问题。在这项研究中,研究人员表明,当考虑到结构时,个体之间的重叠比序列比较中看到的10%要多得多。他们现在计划进一步研究这些结构如何促进人体对特定病原体的整体免疫反应。

“这是语言模型非常适合的地方,因为它具有基于序列的分析的可扩展性,但它接近基于结构的分析的准确性,”Singh说。

参考文献:“Learning the language of antibody hypervariability” by Rohit Singh, Chiho Im, Yu Qiu, Brian Mackness, Abhinav Gupta, Taylor Joren, Samuel Sledzieski, Lena Erlach, Maria Wendt, Yves Fomekong Nanfack, Bryan Bryson and Bonnie Berger, 30 December 2024, Proceedings of the National Academy of Sciences.

这项研究由赛诺菲和安利捷健康机器学习诊所资助。

提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.