利用一种名为FLSHclust(“flash clust”)的新算法,研究人员在数十亿蛋白质序列中发现了188种罕见的和以前未知的crispr相关基因模块——包括一种新的VII型CRISPR-Cas系统。该方法及其发现为利用CRISPR系统和理解微生物蛋白质的巨大功能多样性提供了新的机会。

CRISPR系统已被用于开发越来越多的新型生物分子方法,包括CRISPR/ cas介导的基因组编辑。以前未知的CRISPR系统的发现有可能导致这些生物技术的进一步发展,包括更安全和更有效的基因组治疗。通过对蛋白质序列数据库的计算搜索,CRISPR工具箱得到了扩展。

然而,通常使用的算法方法对于挖掘包含数十亿蛋白质的指数增长数据集已经变得不切实际。为了解决这一限制,Han Altae-Tran及其同事开发了FLSHclust(快速基于位置敏感散列的聚类)——一种通过序列相似性对蛋白质进行聚类的算法,与目前可用的方法不同,它可以快速有效地分析大量的蛋白质序列数据库。

为了评估他们的方法,Altae-Tran等人使用FLSHclust在包含80亿个蛋白质和1020万个CRISPR阵列的8.8个碱基对宏基因组数据库中搜索罕见的CRISPR系统。该分析发现了188个以前未知的crispr相关基因。

作者还鉴定并表征了一类新的含有CRISPR系统的cas14, VII型,它作用于RNA。根据研究结果,新发现的系统是罕见的,并且许多只包含FLSHclust揭示的近13万个crispr链接簇中的一个簇。

Altae-Tran等人写道:“以前未知的cas基因和CRISPR系统的发现极大地扩展了已知的CRISPR多样性,强调了CRISPR功能的多功能性,即以前未发现的蛋白质和结构域经常被招募,要么取代先前存在的成分,要么将新识别的功能赋予先前存在的cas蛋白支架。”

“总的来说,这项工作的结果揭示了CRISPR系统前所未有的组织和功能灵活性和模块化,但也表明大多数变体是罕见的,只在相对不寻常的细菌和古细菌中发现。”

文章标题Uncovering the functional diversity of rare CRISPR-Cas systems with deep terascale clustering

提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.