医学科学已经使用外显子组测序来绘制罕见疾病个体患者的基因图谱大约15年了。通过这项技术,一个人的大约2万个人类基因的DNA被切成小块,这样DNA字母就可以被读出。这就产生了大量微小的DNA片段,然后像拼图游戏一样重新组装成完整的基因。结果是一个人20000个基因的概览。
基因组生物信息学教授Christian Gilissen说:“不幸的是,这样的概述永远不会很完整。这是因为我们基因组的进化,我们的遗传物质。复制DNA时,有时会出错。DNA的小片段要么消失要么被添加。有些作品被复制了不止一次。另一种情况是,复制的基因被放置在基因组的其他地方,除了原始基因之外,还会产生一个假基因。这些基因上的“马虎”非常重要,因为它们是进化的引擎。基因变化就是这样产生的。这些变化可能没有效果或有益,但有时也会导致新的疾病。”
把基因和假基因放大一下。基因有功能,而假基因通常没有。随着时间的推移,基因和假基因都会发生微小的变化和突变。但是基因和假基因是如此的相似,以至于在测序时不清楚哪一部分属于真基因,哪一部分属于假基因。
Gilissen说:“由于这个原因,这些DNA区域不包括在分析中。发现的突变可能来自假基因,没有任何意义。如果你把这种突变加到正常基因上,你就会做出错误的诊断。我们不希望那样。”
与Wouter Steyaert一起,Gilissen开发了一种方法-Chameleolyser-检测现有外显子组测序数据中的基因和假基因组合,并可以可视化它们之间的遗传变异。
Gilissen说:“我们现在发现了很多以前看不见的基因变异。每个外显子组,我们发现了大约60个额外的遗传变异。对于许多人来说,这些数据使我们能够明确地确定他们疾病的原因。通过PacBio的一项新的测序技术,可以分析更长的DNA片段,我们已经建立了我们方法的可靠性。”
这种新方法很有趣,因为它可以应用于已经存在的外显子组测序数据。因此,没有必要对患者进行新的研究。世界上任何一个测序中心都可以应用这种方法。
“如此大规模的分析也可以提供新的生物学见解,”Gilissen说。“在许多疾病中,只有一半的患者可以确定遗传原因。我们认为我们还将在这些基因-伪基因组合中发现新的疾病基因。对于其中一些患者来说,这可能是他们病情的遗传原因所在。”
Systematic analysis of paralogous regions in 41,755 exomes uncovers clinically relevant variation