《自然》：用人工智能设计的DNA开关打开和关闭基因！

杰克逊实验室（JAX）、麻省理工学院、哈佛大学布罗德研究所和耶鲁大学的研究人员利用人工智能设计了数千种新的DNA开关，可以精确控制不同细胞类型中基因的表达。他们的新方法开启了控制基因在体内表达的时间和地点的可能性，以前所未有的方式有益于人类健康和医学研究。

“这些合成设计元素的特别之处在于，它们对它们设计的目标细胞类型显示出显著的特异性，”杰克逊实验室副教授、该研究的共同资深作者Ryan Tewhey博士说。“这为我们创造了在不影响身体其他部分的情况下，仅在一个组织中上调或下调基因表达的机会。”

近年来，基因编辑技术和其他基因治疗方法使科学家能够改变活细胞内的基因。然而，仅在选定的细胞类型或组织中影响基因，而不是在整个生物体中影响基因，一直很困难。这在一定程度上是因为理解DNA开关的挑战，即控制基因表达和抑制的顺式调控元件（CREs）。

在10月23日发表在《自然》高级网络版上的一篇论文中，Tewhey和他的合作者不仅设计了新的、从未见过的合成cre，而且利用这些cre成功地激活了大脑、肝脏或血细胞中的基因，而不会激活其他细胞类型中的基因。

组织和时间特定的指令

尽管生物体中的每个细胞都含有相同的基因，但并非每个细胞或任何时候都需要所有的基因。例如，cre有助于确保大脑所需的基因不被皮肤细胞使用，或者确保早期发育所需的基因在成人中不被激活。cre本身不是基因的一部分，而是独立的调控DNA序列——通常位于它们控制的基因附近。

科学家们知道，人类基因组中有数千种不同的cre，每种cre的作用都略有不同。但是CRE的语法很难弄清楚，“没有直接的规则来控制每个CRE的行为这限制了我们设计只影响人体某些细胞类型的基因疗法的能力。”

“这个项目本质上提出了一个问题：‘我们能学会阅读和编写这些监管元素的代码吗？’”耶鲁大学遗传学助理教授、该研究的资深作者之一Rodrigo Castro博士说。“如果我们从语言的角度来考虑，这些元素的语法和句法理解得很少。因此，我们试图建立一种机器学习方法，可以学习比我们自己更复杂的代码。”

利用一种称为深度学习的人工智能（AI）形式，该小组使用来自人类基因组的数十万个DNA序列训练了一个模型，他们在实验室测量了三种类型细胞（血液，肝脏和大脑）中的CRE活动。人工智能模型允许研究人员从几乎无限数量的可能组合中预测任何序列的活动。通过分析这些预测，研究人员发现了DNA中的新模式，了解了DNA中CRE序列的语法如何影响RNA的生成量——这是基因被激活程度的一个代表。

该团队包括该研究的共同资深作者、Broad研究所的核心成员、哈佛大学教授Pardis Sabeti，他开发了一个名为CODA （DNA活性的计算优化）的平台，该平台利用他们的人工智能模型有效地设计了数千个具有所需特征的全新cre，比如激活人类肝细胞中的特定基因，但不激活人类血液或脑细胞中的相同基因。通过“湿”和“干”调查的迭代组合，使用实验数据首先建立然后验证计算模型，研究人员改进和改进了该程序预测每种CRE生物影响的能力，并使设计特定的CRE成为可能，这在自然界中从未见过。

该研究的第一作者之一、Sabeti实验室的博士后Sager Gosai博士说：“天然cre虽然很多，但只代表了可能遗传元素的一小部分，而且它们的功能受到自然选择的限制。”“这些人工智能工具在设计基因开关方面具有巨大的潜力，这些基因开关可以精确调节基因表达，用于生物制造和治疗等不受进化压力影响的新应用。”

Tewhey和他的同事们测试了新的人工智能设计的合成cre，他们将它们添加到细胞中，并测量它们激活所需细胞类型中的基因的程度，以及它们在避免其他细胞中的基因表达方面的表现。他们发现，新的cre甚至比已知的与细胞类型相关的自然发生的cre更具细胞类型特异性。

Gosai说：“合成的cre在语义上与自然元素相差甚远，对其有效性的预测似乎难以置信。”“我们最初预计，许多序列在活细胞内会出现异常。”

“CODA在设计这些元素方面做得如此出色，这让我们感到非常惊喜。”

Tewhey和他的合作者研究了为什么合成的cre能够优于自然发生的CRE，并发现细胞特异性合成CRE包含负责表达靶细胞类型基因的序列组合，以及抑制或关闭其他细胞类型基因的序列。

最后，研究小组在斑马鱼和老鼠身上测试了几种合成的CRE序列，结果很好。例如，一种CRE能够激活斑马鱼肝脏中的荧光蛋白，但不能激活斑马鱼其他部位的荧光蛋白。

Tewhey说：“这项技术为编写具有预定义功能的新监管元素铺平了道路。”“这些工具对基础研究很有价值，但也可能具有重要的生物医学意义，你可以使用这些元素来控制非常特定细胞类型的基因表达，以达到治疗目的。”