20多年前首次对人类基因组进行测序时,最大的惊喜之一是它包含的基因数量之少,不到一些科学家预测的三分之一。似乎不到3万个基因和它们编码的蛋白质就足以构建和运作人体;最近的统计数字甚至更低,只有大约2万人。但是,一项对被一些人称为“黑暗蛋白质组”的新系统分析表明,科学家们已经错过了数千个潜伏在以前被忽视的基因组片段中的非传统基因,这些基因产生的蛋白质比平均蛋白质要小。
新发现的基因及其产物可能会颠覆人类生物学的各个方面,并加速医学发现。例如,一个新发现的基因产生了一种微型蛋白质,这种蛋白质似乎是儿童癌症的关键。
“除非我们知道黑暗蛋白质组中的蛋白质是什么以及它们是如何起作用的,否则我们[治疗]疾病的能力将受到限制,”Salk生物研究所的化学生物学家Alan Saghatelian说,他没有参与这项新研究,他在上个月发表在bioRxiv上的预印本中描述了这一点。
这项研究的领导者之一John Prensner之所以开始研究黑暗的蛋白质组,是因为他在已知基因中寻找与癌症相关的基因的许多研究都是空手而归。“我对基因组的其余部分所能提供的东西产生了兴趣,”现供职于密歇根大学医学院的儿科神经肿瘤学家Prensner回忆道。
他和他的同事扩展了基因的标准定义,通常被认为是由一个长长的蛋白质编码DNA序列组成,称为开放阅读框(ORF),它有信号告诉细胞从哪里开始和停止阅读它。一个细胞将ORF序列转录成信使RNA,信使RNA被传送到被称为核糖体的细胞工厂,核糖体将氨基酸序列组装成蛋白质。一个典型的ORF之前也有一个DNA片段,它吸引了基因被读取所需的蛋白质。对于大多数研究人员来说,如果一个ORF编码了一个含有100个或更多氨基酸的蛋白质,那么它就有资格成为一个基因。
但是,研究酵母、蛇和人类等各种生物的生物学家最近发现了大量所谓的非规范ORF,它们缺乏这些开头片段,比平均水平短。然而,它们经常被转录成RNA,一种被称为核糖体分析或核糖序列分析的方法表明,许多转录的RNA附着在核糖体上,在那里它们可能被翻译成短氨基酸链——甚至是含有少于12个氨基酸的蛋白质。
即使在那时,许多科学家也认为由此产生的微小蛋白质并不重要,认为它们是会迅速降解的“噪音”。多伦多病童医院(Hospital for Sick Children)的生物化学家Ji-Young Youn表示,要让人们相信这些ORF值得认真对待,是非常具有挑战性的。
但是大约3年前,Prensner和他的同事证明癌细胞含有大约550个这样的微蛋白。两年前,Oncode研究所公主Máxima儿科肿瘤学中心的系统生物学家Sebastiaan van Heesch在心脏组织中发现了类似数量的微小蛋白质。“Sebastiaan和我发现这些基因非常非常酷,我们认为世界应该知道它们,”Prensner说。
因此,他们与官方认可的基因数据库GENCODE的基因注释专家Jonathan Mudge合作,并最终从四大洲的20个机构招募了几十名其他研究人员来帮助评估人类存在多少非规范ORF。欧洲分子生物学实验室(European Molecular Biology Laboratory)欧洲生物信息学研究所(European Bioinformatics Institute)的计算生物学家Fergal Martin说,这“成为一种为一个相对较新的领域带来秩序的超级联盟”
这个小组没有进行自己的实验,而是探究了其他人所做的事情,首先梳理了核糖体分析论文。到2022年,科学家们已经在人类基因组中找到了7264个非规范的ORF。在人类蛋白质组组织(Human Proteome Organization)和PeptideAtlas(编纂蛋白质质谱数据)的帮助下,他们开始证明这些ORF是制造蛋白质的。人类蛋白质组组织致力于对所有人类蛋白质进行分类。
这是一个“巨大的挑战”,Youn指出。该联盟搜索了PeptideAtlas的质谱数据档案,寻找与ORF序列匹配的小蛋白质,并对已发表的实验进行了分类,这些实验对人类免疫系统检测到的蛋白质片段进行了分类,这是一个蓬勃发展的领域,称为免疫肽组学。总之,他们证实,在他们统计的7264个非规范ORF中,有四分之一产生了蛋白质,总共约有3000个。(一个ORF可以通过多种方式被读取,以制造一种以上的蛋白质。)
斯坦福大学遗传学家Ami Bhatt说,新发现的微型蛋白质“有助于提供[人类]基因组编码部分的更完整图像”,他自己的研究已经探索了微生物的黑暗蛋白质组。
它们也为科学家提供了新的生物医学研究目标。Prensner和van Heesch已经开始对他们在早期的暗蛋白质组研究中发现的ORF及其微小蛋白进行后续研究。通过使用基因编辑器CRISPR在ORF中引入突变,他们可以检查其蛋白质在癌细胞中的重要性。他们在1月18日的《Molecular Cell》杂志上报道说,ORF的产品虽然很小,但对髓母细胞瘤(一种影响儿童的脑癌)的存活至关重要。
“你不是每天都能打开一个研究方向,然后说,‘我们可能为病人找到了一种全新的药物靶点,’”Prensner说。这种微小蛋白并没有出现在人类基因组的原始分析中,但“它在成神经管细胞瘤中起着关键作用。”
Prensner还为马萨诸塞州一家名为ProFound Therapeutics的公司提供咨询服务,该公司与制药巨头辉瑞公司合作开发基于微蛋白靶点的肥胖治疗方法。预印本的另一位合著者,加州大学欧文分校的蛋白质生物化学家Thomas Martinez和他的团队正在寻找与胰腺癌和代谢性疾病有关的微小蛋白质。“我最兴奋微小蛋白质(microproteins)翻译成治疗的努力,希望作为生物标记物和药物靶标,”Martinez说。“一旦跨越了这个障碍,我认为人们对该领域的兴趣将会大大增加。”
虽然Martinez很高兴发现了大量的深色蛋白质组,但扬认为还有更多的东西有待发现。她说,她的团队和其他人所做的工作只是对一种看不见的微小蛋白质群体投下了“一丝丝的光芒”。她的团队正在改进质谱技术,以检测更小的分子,并希望利用它们找到在大脑发育中起作用的微小蛋白质。
这一切对人类基因的记录有何影响?深色蛋白质组显然提高了总数,但没有人知道真正的数字。Martinez说:“我的直觉是,这个数字可能不会高达10万,但5万是有可能的。”