《Nature Biotechnology》宏基因组分析新方法

卡内基梅隆大学（Carnegie Mellon University）和多伦多大学（University of Toronto）的研究人员开发了一种新的k-mer草图宏基因组分析器，称为sylph，它使科学家能够比其他分析器更快、更准确地分析基因组数据。

“测序越来越好，这很好，因为这意味着我们有更多的数据可以处理，”CMU计算机科学学院Ray和Stephanie Lane计算生物系的助理教授Yun William Yu说。“但这也意味着我们需要检查更多的数据，这可能需要更多的时间。”

例如，当分析人类肠道样本以确定存在的细菌时，其他方法读取测序的基因组数据；将其与大肠杆菌或艰难梭菌等特定细菌进行匹配；然后测定这些细菌在样品中的比例。Sylph通过将已知细菌与样本进行比较来逆转这一过程。该方法将细菌基因组分解成更小的子样本，称为k-mers，然后将其与初始样本进行比较。如果在一个子样本中发现一定比例的细菌，sylph就可以得出细菌存在的结论。

Yu和哈佛医学院和丹娜法伯癌症研究所的博士后Jim Shaw一起研究这种方法，发现sylph使用的计算资源更少，运行速度比其他分析器更快。

他说：“Sylph可以帮助解决这类问题的计算工作流程。这也意味着我们可以在计算生物学研究中扩展到更大的数据集。随着我们获得越来越多的测序数据，许多其他工具的规模变得更糟。显然，当我们获得更多数据时，我们必须读取更多数据，sylph也会变慢。但我们的工具将在更长的时间内保持更快的速度。”

除了速度外，研究人员还发现，sylph比其他侧写器更精确。研究人员在《Nature Biotechnology》上发表的一篇论文中写道，Sylph的创新“是一种基于零膨胀泊松统计的统计模型，可以在低覆盖率下消除遏制平均核苷酸同一性（ANI），解决低丰度ANI计算问题。”该模型的公式可以按比例调整，使其能够检测到样本中存在的罕见基因组。

Yu表示，他计划将sylph的某些方面应用到他未来的工作中，以改进计算分析工具。

Rapid species-level metagenome profiling and containment estimation with sylph