英国生物银行(11月30日星期四公布了对其50万参与者进行全基因组测序的令人难以置信的新数据。这个数据库公布 50 万名英国志愿者的每一个人的完整基因组序列。全世界的研究人员都可以申请访问这些缺乏可识别细节的数据,并利用它们来探究健康和疾病的遗传基础。
这将推动新的诊断方法、治疗方法和治愈方法的进步,并通过一个包含去标识化数据(例如姓名、地址、出生日期、全科医生姓名等)的受保护数据库,提供给世界各地经批准的研究人员。如此丰富的基因组数据是无与伦比的,但它与英国生物银行在过去15年中收集的生活方式、全身成像扫描、健康信息和血液中发现的蛋白质等现有数据的结合,才是其成为医疗保健未来的决定性因素。
继2021年发布20万名生物银行参与者的全基因组之后,今天的大手笔发布了每位英国生物银行参与者的30亿个字母的完整基因组序列。这项耗资2亿英镑(约合2.5亿美元)的工作由生物医学研究资助者Wellcome、英国政府和几家制药公司共同资助,作为回报,这些公司可以在数据发布前9个月获取数据。
英国生物银行首席执行官Rory Collins在新闻发布会上说:"科学家们正在像研究谷歌地图一样研究这些数据。当他们想知道从生活方式、环境、遗传到疾病的途径是什么时,他们不会去谷歌,而是会去英国生物银行"。
罕见变异
在此之前,英国生物银行的基因信息包括整个 "外显子组",每个外显子组都是基因组中负责编码蛋白质的 2%,以及分布在基因组中的 85 万个常见的单字母 DNA 变异。全基因组关联研究(GWAS)将健康与遗传学联系在一起。
但是,当研究人员寻找遗传与疾病或其他性状之间的关联时,这些 "命中 "的变异大多出现在基因组的非编码区,而这些非编码区在外显子组序列中是缺失的,在现有的全基因组数据中也只有低分辨率的覆盖。英国埃克塞特大学人类遗传学家Michael Weedon说,全基因组还能让研究人员发现非常罕见的变异,这些变异对性状的影响往往比全基因组数据中的常见变异更大。"我们希望稀有变异能让我们更深入地了解生物学。
事实已经证明了这一点。在11月20日的预印本中,由Weedon和同在埃克塞特大学的人类遗传学家Gareth Hawkes领导的研究小组对英国生物库数据中的前20万个完整基因组进行了挖掘,发现了29个罕见的DNA变体,这些变体与高达7厘米的身高差异有关;这些变体在以前的遗传研究中从未发现过。Weedon说,这项研究是对所有 50 万个基因组进行分析的试点,他计划进一步对基因组数据进行初步研究。
最终,研究人员将需要50万个以上的全基因组来全面绘制罕见基因变异与健康之间的关联图。"我认为这是获得我们可能需要的数百万个样本的良好的下一步"。
改变游戏规则的健康研究数据
今天增加的测序数据是帮助取得了一系列巨大飞跃。这些飞跃包括:发现了与预防肥胖和 2 型糖尿病相关的基因,这有可能促进新药的开发;确定了心脏病、乳腺癌和前列腺癌等疾病的高遗传风险个体,这可能有助于筛查;通过智能手表数据发现了基因活动与帕金森病之间的联系,这可以在诊断前七年预测该疾病,从而有可能进行早期干预。新的测序数据将大大增强现有数据的潜力。
这种规模的全基因组测序数据,结合英国生物银行现有的数据和生物样本,将产生生物医学创新,包括:
更有针对性的药物发现和开发。根据人类遗传学证据开发的实验性疗法获准用于临床的可能性要高出一倍!"这个具有里程碑意义的数据集将使我们能够利用人工智能和机器学习的力量,快速确定新的疾病靶点,并帮助研究人员预测候选药物如何根据患者的遗传学影响某些亚群患者。这将为更高效的临床开发铺平道路,并推动精准医学的发展,"强生公司创新医学研发执行副总裁、医学博士 John Reed 说。
发现数千种致病的非编码基因变异。人类基因组的98%曾经被错误地称为“垃圾DNA”,人们对它们知之甚少。这是DNA中不编码蛋白质的部分,利用早期的测序数据,一项研究已经从这个区域发现了罕见变异与特定基因决定特征相关的例子。
加快推进精准医疗。英国生物银行的样本量为50万人,收集了超过1万个变量(如血压、认知功能、饮食和骨密度)的数据,研究人员正在推动量身定制的医疗保健,比如调查为什么具有相同遗传倾向的人对同一种疾病有不同的结果、反应和副作用。
了解疾病的生物学基础。对于许多疾病,如帕金森氏症、阿尔茨海默氏症和自身免疫性疾病,人们对其潜在的起源知之甚少。"这个突破性的数据集让科学家们能够比以往任何时候都更近距离地探索遗传如何影响蛋白质、代谢物和其他生理因素的水平,有望加速我们对疾病遗传基础的理解。“安进公司研发执行副总裁David Reese说。
数据民主化
迄今为止,已有来自90多个国家的3万多名研究人员注册使用英国生物银行,并发表了9000多篇同行评议论文。研究人员可通过英国生物库安全的云端研究分析平台(Research Analysis Platform),获得分析去标识化数据的工具和计算能力。
从基因组本身的测序到创新和安全的数据存储,这一丰富数据集的发布标志着科学研究中一个重要而令人印象深刻的时刻。这对于了解我们的基因、环境和健康之间的相互作用确实是一个开创性的领域。
“惠康的资金支持了一个新的定制数据平台,该平台将为获得批准的研究人员提供分析大量数据所需的工具。至关重要的是,这为早期职业研究人员以及低收入和中等收入国家的研究人员提供了令人兴奋的机会,反过来又提供了巨大的潜力,可以开启新的发现,增强我们对健康的理解,从而改善世界各地的生活,”威康信托基金会首席研究项目官Cheryl Moore说。
背后的支持
该项目由Wellcome,、UKRI和四家生物制药公司(安进、阿斯利康、葛兰素史克和强生公司)资助。
作为对巨额投资的回报,英国生物银行将向财团的行业成员提供9个月的独家数据访问权。通过这种方式,商业公司投入巨资来增强突破性的健康数据集,然后将其用于世界各地经批准的研究。
DNA测序由Amgen的子公司deCODE Genetics和Wellcome Sanger Institute完成,使用Illumina NovaSeq技术完成,deCODE提供额外的信息处理支持。
现在,经批准的研究人员可以在英国生物库研究分析平台(UK Biobank Research Analysis Platform)上访问这些数据以及英国生物库的其他去标识化数据,该平台由 DNAnexus 托管于伦敦地区的亚马逊网络服务(AWS)。这是首次向研究人员提供全球可访问的资源、计算能力和必要的存储,分析如此规模和种类的数据。
测序完成后,行业联盟牵头在 AWS 基础设施上使用 DRAGEN 管道对基因组进行了处理和联合调用 ,使 Illumina 能够将这一海量数据转化为单一的综合基因数据集。这些产出进一步丰富了数据的科学重要性,提高了识别频率较低的基因变异的潜力,并使其与其他大规模人群健康研究更具交叉可比性。
(生物通)