蛋白质在细胞内的精确定位(Subcellular localization)与其功能发挥密切相关,定位异常往往导致疾病发生。现有技术存在双重局限:数据集仅覆盖有限蛋白质-细胞系组合,预测模型要么缺乏细胞类型特异性,要么无法推广到未知蛋白质。

这项研究提出的PUPS(Prediction of Unseen Proteins’ Subcellular localization)框架突破性融合两种人工智能技术:通过蛋白质语言模型(Protein language model)解析序列特征实现对新蛋白质的泛化预测,借助图像修复模型(Image inpainting model)提取细胞图像特征,精准捕捉单细胞水平变异(Single-cell variability)和细胞类型特异性(Cell-type specificity)。

验证实验取得重要进展:模型成功预测了训练数据(人类蛋白质图谱Human Protein Atlas)范围外的新实验数据,包括由基因突变引发的蛋白质定位改变。该技术为研究蛋白质在不同细胞系中的差异分布、单细胞微环境下的定位波动,以及疾病相关突变导致的错误定位(Mislocalization)提供了全新解决方案。

提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.