橡树岭国家实验室的科学家们利用他们在量子生物学、人工智能和生物工程方面的专业知识,改进了CRISPR Cas9基因组编辑工具对微生物等生物的作用,这些生物可以被改造成生产可再生燃料和化学品。
CRISPR是一种强大的生物工程工具,用于修改遗传密码以提高生物体的性能或纠正突变。CRISPR Cas9工具依赖于一种单一的、独特的引导RNA,该RNA指导Cas9酶与基因组中相应的靶向位点结合并切割。现有的计算预测CRISPR工具有效引导rna的模型仅建立在来自少数模型物种的数据上,当应用于微生物时,效率很弱且不一致。
“许多CRISPR工具都是为哺乳动物细胞、果蝇或其他模式物种开发的。ORNL合成生物学小组的负责人Carrie Eckert说:“很少有针对染色体结构和大小非常不同的微生物的研究。”“我们已经观察到,设计CRISPR Cas9机制的模型在处理微生物时表现不同,这项研究证实了我们所知道的轶事。”
为了改进引导RNA的建模和设计,ORNL的科学家们试图更好地了解细胞核中最基本的水平发生了什么,遗传物质储存在细胞核中。他们转向了量子生物学,这是一个连接分子生物学和量子化学的领域,研究电子结构对核苷酸的化学性质和相互作用的影响,核苷酸是构成DNA和RNA的分子。
ORNL的计算系统生物学家Erica Prates说,电子在分子中的分布方式会影响反应性和构象稳定性,包括Cas9酶引导RNA复合物与微生物DNA有效结合的可能性。
最好的指南,通过森林的决定
科学家们建立了一个可解释的人工智能模型,称为迭代随机森林iterative random forest。他们在大约5万个引导rna的数据集上训练了这个模型,这些rna以大肠杆菌的基因组为目标,同时也考虑了量子化学特性,这种方法发表在《核酸研究》杂志上。
该模型揭示了核苷酸的关键特征,可以使选择更好的引导rna成为可能。Prates说:“该模型帮助我们确定了支持指导rna效率的分子机制的线索,为我们提供了一个丰富的分子信息库,可以帮助我们改进CRISPR技术。”
ORNL的研究人员通过使用模型选择的一大组向导对大肠杆菌进行CRISPR Cas9切割实验,验证了可解释的AI模型。
这篇论文的第一作者、前ORNL计算系统生物学家Jaclyn Noshay说,使用可解释的人工智能让科学家们了解了驱动结果的生物机制,而不是基于缺乏可解释性的“黑匣子”算法的深度学习模型。
Noshay说:“我们希望提高我们对指导设计规则的理解,以获得最佳切割效率,并以微生物物种为重点,了解跨[生物]王国训练的模型的不兼容性。”
可解释的人工智能模型具有数千个特征和迭代性质,使用ORNL的橡树岭领导计算机设施(OLCF)的Summit超级计算机进行训练,OLCF是美国能源部科学办公室的用户设施。
Eckert说,她的合成生物学团队计划与ORNL的计算科学同事合作,利用他们从新的微生物CRISPR Cas9模型中学到的知识,并利用实验室实验或各种微生物物种的数据进一步改进它。
为每个物种提供更好的CRISPR Cas9工具
考虑到量子特性,为每个物种的Cas9指南改进打开了大门。“这篇论文甚至对整个人类都有影响。”“例如,如果你正在研究任何一种药物开发,你使用CRISPR来针对基因组的特定区域,你必须有最准确的模型来预测这些指导。”
完善CRISPR Cas9模型为科学家提供了一个更高通量的管道,将基因型与表型或基因与物理特征联系起来,这是一个被称为功能基因组学的领域。这项研究对ornl领导的生物能源创新中心(CBI)的工作有影响,例如,改善生物能源原料植物和生物质的细菌发酵。
“通过这项研究,我们大大提高了对向导RNA的预测,”埃克特说。“我们对其中的生物过程了解得越好,我们可以为预测提供的数据越多,我们的目标就会越好,从而提高研究的精度和速度。”
“我们研究的一个主要目标是提高使用CRISPR工具预测修改更多生物体DNA的能力。ORNL的保罗·亚伯拉罕(Paul Abraham)是一位生物分析化学家,他领导着美国能源部基因组科学计划的安全生态系统工程和设计科学重点领域(SEED SFA),该领域支持CRISPR研究,他说:“这项研究代表了一个令人兴奋的进步……了解我们如何避免在生物体的遗传密码中造成代价高昂的‘错别字’。”“我很想知道,随着我们生成更多的训练数据,并继续利用可解释的人工智能建模,这些预测还能提高多少。”
Quantum biological insights into CRISPR-Cas9 sgRNA efficiency from explainable-AI driven feature engineering