在基因测序的奇妙世界里,纳米孔测序技术宛如一颗璀璨的新星,正逐渐崭露头角。它凭借独特的优势,能够直接对天然 DNA 和 RNA 进行测序,不仅能精准获取遗传或转录组信息,还能探测到核苷酸修饰,为我们打开了了解基因组表观遗传特征的大门。然而,目前这一领域却面临着重重挑战。一方面,只有少数几种核苷酸修饰,如 5 - 甲基胞嘧啶(5mC),可以直接从测序结果中识别出来,而大多数修饰的检测仍困难重重。另一方面,现有的信号比对方法不仅容易出错,而且缺乏统一的标准来进行比较,这使得从纳米孔信号中准确提取修饰信息变得异常艰难。这些问题严重阻碍了纳米孔测序技术在核苷酸修饰检测方面的广泛应用,就像一道道坚固的屏障,横亘在科研人员探索生命奥秘的道路上。
为了突破这些困境,来自约翰斯・霍普金斯大学(Johns Hopkins University)的研究人员展开了深入研究。他们致力于开发一种高效的工具,以实现纳米孔信号的快速、准确比对,从而提高核苷酸修饰检测的灵敏度。经过不懈努力,他们成功推出了 Uncalled4 这一强大的软件工具包。相关研究成果发表在《Nature Methods》上,为该领域带来了新的希望。

研究人员在开展此项研究时,运用了多种关键技术方法。首先是信号预处理技术,通过特定算法对原始纳米孔电信号进行处理,有效降低噪声并校正电流水平偏差。其次,采用了基于动态时间规整(DTW)的比对算法,该算法在碱基调用元数据的引导下,能够快速准确地将预处理后的信号与参考序列进行比对。此外,还运用了一种迭代训练孔模型的方法,通过多次比对信号并统计 k - mer 的信号特征,不断优化孔模型。在研究过程中,使用了来自多种样本的数据,包括果蝇(Drosophila melanogaster)DNA、大肠杆菌(Escherichia coli)rRNA 以及多种人类细胞系 RNA 等。

下面让我们详细了解一下研究结果:

  • 比对效率、准确性和可视化:Uncalled4 使用碱基调用引导的 DTW(bcDTW)算法,能够快速准确地将纳米孔信号与参考基因组或转录组进行比对。与其他信号比对工具如 Nanopolish、Tombo 和 f5c 相比,Uncalled4 速度更快,文件存储格式更高效。例如,在对果蝇 DNA 和人类胚胎肾 293T(HEK293T)细胞系 RNA 的比对实验中,Uncalled4 比对速度比 Tombo 快 2.9 - 6.8 倍,比 Nanopolish 快 1.7 - 1.9 倍,比 f5c 快 1.3 - 2.7 倍,且其压缩和可索引的 BAM 格式文件比 Nanopolish 或 f5c 的原始格式小很多。同时,Uncalled4 在比对质量上表现出色,其计算的每个 k - mer 归一化平均读取电流与孔模型之间的中位绝对差(MAD)在 RNA004 中最低,在其他类型的测序数据中也与最低 MAD 值非常接近。此外,Uncalled4 还提供了多种可视化功能,方便研究人员直观分析比对结果。
  • 读取信号和孔模型特征:研究人员通过分析不同电流水平下 k - mer 的核苷酸组成,发现核苷酸位置与电流之间存在复杂关系。例如,r10.4.1 的双读取头设计使其在检测同聚物时准确性更高,同聚物长度可通过停留时间进行估计,但停留时间受多种因素影响,如序列同一性等。Uncalled4 提供的迭代训练孔模型方法,训练得到的模型与 ONT 发布的相应孔模型具有高度一致性,但也发现了 ONT r10.4.1 400 - bps 模型中存在的一些异常 k - mer,可能是 ONT 模型存在错误的证据。
  • DNA 修饰模型训练和检测:研究人员对经 CpG 甲基转移酶 M.SssI 处理的果蝇 DNA 进行测序,以研究 DNA 修饰对 r10.4.1 DNA 测序的影响。他们训练了一个 9 - mer 模型,发现含有 CpG 的 k - mer 在中央位置的电流水平与未修饰模型差异最大。同时,使用 Uncalled4 和 f5c 通过比较 PCR 和 5mCpG 处理的果蝇 r10.4.1 数据的电流水平,成功检测到 5mCpG 甲基化。此外,Uncalled4 还能训练包含人工修饰的孔模型,如在酿酒酵母(Saccharomyces cerevisiae)DNA 中引入 BrdU 的模型训练,且 Uncalled4 训练的模型在分类 BrdU 修饰的读取方面表现更优。
  • 比较 RNA 修饰检测:在 RNA 修饰检测实验中,研究人员使用 Uncalled4、Nanopolish 和 Tombo 对大肠杆菌 rRNA 和人类 HEK293T 细胞系中的 RNA 修饰进行检测。通过比较不同修饰率数据集的每参考电流分布的差异,使用两样本 Kolmogorov - Smirnov(KS)统计量来衡量。结果显示,Uncalled4 在检测多种 RNA 修饰时,其接受者操作特征曲线下面积(AUROC)和精确召回曲线下面积(AUPRC)始终更高,表明 Uncalled4 在 RNA 修饰检测方面比其他工具更有效。
  • 使用 m6Anet 进行 RNA 修饰检测:研究人员将 Uncalled4 比对结果输入到 m6Anet 中,以检测 RNA m6A 位点。在对多个人类细胞系的研究中,Uncalled4 + m6Anet 比 Nanopolish + m6Anet 检测到更多的 m6A 位点,且在低覆盖区域优势明显。在对 COSMIC Census 一级基因的分析中发现,Uncalled4 在许多基因中检测到更多的 m6A 修饰,如在 ABL1 和 JUN 等癌基因中,这对于理解癌症相关基因的调控机制具有重要意义。

在研究结论和讨论部分,Uncalled4 的出现为纳米孔信号分析带来了新的突破。它的快速准确比对算法、高效的文件格式以及强大的孔模型训练和分析功能,使其在核苷酸修饰检测方面具有显著优势。通过使用 Uncalled4,研究人员能够在健康和癌症人类细胞系中,利用 m6Anet 发现更多与疾病相关基因中的 RNA m6A 位点,这对于深入了解疾病的发生发展机制、探索新的治疗靶点具有重要意义。同时,Uncalled4 的应用也为长读长测序在临床测序和泛基因组分析中的广泛应用提供了有力支持,有望推动相关领域的快速发展。然而,目前该领域仍面临一些挑战,如原始信号数据获取困难、RNA 修饰检测的训练数据缺乏等。但 Uncalled4 为解决这些问题提供了重要的工具和思路,相信在未来的研究中,随着技术的不断进步,纳米孔测序技术在核苷酸修饰检测领域将取得更大的突破,为生命科学和健康医学的发展带来更多惊喜。

提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.