获取公开可用的人类单细胞基因表达数据集或scRNA-seq数据集,大大增强了研究人员对复杂生物系统和各种疾病词源的理解。然而,可获得性的增加引起了人们对捐赠细胞的个人隐私的更大关注,以及他们的私人健康细节在未经同意的情况下被分享的可能性。
先前对这些隐私泄露的研究主要集中在大量基因表达数据共享上,其中基因的平均表达水平是在来自组织或样本的大量细胞中测量的,而不是单个细胞。由于单细胞数据集可能包含大量的变异或“噪声”,研究人员没有考虑到它们存在信息泄露的高风险。现在,纽约基因组中心、哥伦比亚大学和布朗大学的研究人员对这一假设提出了挑战。
10月2日发表在《细胞》(Cell)杂志上的一项新研究描述了一项新发现,即单细胞基因表达数据集中的个体容易受到“连接攻击”。在这种攻击中,黑客可以发现研究参与者的私人遗传和身体特征信息。
“最近发布的人口规模单细胞数据集使我们能够接近隐私泄露的主题,并解决黑客是否可以利用公开可用的信息通过单细胞数据的噪音来深入了解患者的基因组成、表型特征和疾病的问题。”通讯作者Gamze Gürsoy
Gürsoy博士和研究作者首先从狼疮研究和OneK1K队列中收集数据,通过将其与公开的批量表达定量性状位点(eqtl)进行比较,将个体与其遗传和表型数据联系起来。然后,他们证明,使用细胞类型特异性的eqtl,这种连接可以更准确地进行。最后,他们表明,通过利用来自少数个体的遗传和单细胞数据来训练预测模型,在无法获得eQTL数据的情况下,将个体与其遗传和表型特征联系起来仍然是可行的。
“我们都知道基因表达模式受到基因突变的影响,基因突变的组合对每个人来说都是独一无二的,我们的研究表明,通过使用来自一个队列的遗传变异和单细胞RNA-Seq数据,我们可以确定可以在其他研究中预测的位置,仅依赖于这些研究中的单细胞表达数据。这种方法允许检索不相关研究的参与者从未同意分享的遗传信息。”
由于数据不需要来自同一组或群体,因此健康数据集可用于预测有关病态数据集的信息。在健康和患病个体的基因表达中有足够的潜在共性,即使在单个细胞中,疾病也不会对基因表达信号产生很大的影响。
“利用在不同实验室生成的数据,甚至用不同的方法处理数据,然后用它来连接完全不同的匿名数据集中的个人,这种能力相当惊人,并突出了单细胞数据的真正隐私问题,我们的目标是在数据发布之前帮助量化风险,并塑造未来研究的设计,以确保患者有更大的隐私。”
希望这一发现将有助于制定明确和详细的同意政策,强调单细胞数据捐赠者的隐私风险,并制定法律和立法,防止攻击者利用这些信息进行伤害。