研究人员利用机器学习开发了一种方法,可以从测序数据中预测我们肠道中的微生物总数,结果表明,受年龄和饮食等因素影响的微生物密度是肠道的主要因素微生物组变异,可以重塑我们研究疾病联系的方式。
在最近发表在《Cell》杂志上的一项研究中,一组研究人员调查了粪便样本中微生物负荷与肠道微生物组变化之间的关系。
使用机器学习方法,他们能够仅使用丰度数据预测粪便样本中的微生物负荷。该研究发现,微生物负荷显著影响微生物组多样性,并且是研究微生物组与疾病关联的主要混淆因素。
肠道微生物组对人体健康有重大影响,因为它的组成与各种生理过程和疾病有关。研究人员已经广泛使用宏基因组学来研究微生物群落,通过检查微生物组内物种的相对丰度。然而,这些相关数据缺乏微生物负荷或微生物总数的信息,这可能会影响微生物组的多样性和功能。
传统的方法,如细胞计数和定量聚合酶链反应(qPCR),可以量化微生物负荷,但往往是劳动密集型的,不适合大型研究。如果没有微生物负荷数据,宏基因组研究可能会使用有偏差或不完整的解释,因为微生物负荷会影响观察到的物种比例,并影响与疾病或其他健康状况的相关性。
此外,尽管先前的研究已经确定了炎症性肠病和肥胖等疾病中的微生物变化,但很少考虑微生物负荷的混杂影响,并且可能潜在地扭曲这些关联。
在本研究中,研究人员采用机器学习方法从肠道微生物组数据中预测微生物负荷,利用来自两个主要队列的大型宏基因组数据集-一个由异质性研究人群组成,包括健康个体和终末期肝病患者,另一个包括健康个体和心脏代谢疾病患者。
使用流式细胞术分析这两个队列的粪便样本以获得微生物负荷数据。为了建立预测模型,对微生物物种的相对丰度进行了转化,并过滤掉了次要物种。研究人员还使用网格搜索进行超参数调优,以最小化均方根误差,确保模型的鲁棒性。
为了验证该模型,研究人员将其应用于两个数据集,并检查了预测和实际微生物负荷之间的相关性。额外的验证包括使用配对的16S核糖体核糖核酸(rRNA)基因测序数据在外部数据集上测试模型,以验证预测在不同的微生物组分析技术中保持一致。
同时,本研究还通过比较不同方案处理的成对样品,探讨了脱氧核糖核酸(DNA)提取和测序方法对微生物负荷预测的技术影响。统计分析评估了预测微生物负荷对疾病关联和微生物多样性的影响,调整了诸如抗生素使用和人口变量等混杂因素。
该研究发现,微生物负荷在塑造肠道微生物组和显著影响疾病关联方面起着重要作用。预测的微生物负荷在个体之间有很大差异,并受到年龄、饮食和健康状况等因素的影响。此外,较高的微生物负荷与较慢的肠道运输时间相关,这也影响了微生物的多样性和组成。
研究发现,机器学习模型准确地预测了数据集上的微生物负荷,并在分析来自队列和外部验证数据集的数据集时显示出鲁棒性。
此外,分析显示,几种疾病与不同的微生物负荷模式相关。例如,克罗恩病和肝硬化等疾病的微生物负荷较低,而多发性硬化症和结直肠癌等疾病的微生物负荷较高。这些差异暗示微生物负荷也可能是在这些疾病中观察到的一些微生物群落变化的潜在原因,独立于特定的微生物物种关联。
此外,通过调整微生物负荷,该研究揭示了许多先前报道的疾病-微生物关联失去了意义,这表明微生物负荷在微生物组-疾病研究中起着混淆因素的作用。
研究人员还确定了高或低微生物负荷与与疾病相关的微生物物种之间的关联。这表明微生物负荷调节对于准确的疾病生物标志物的发展至关重要,忽视负荷相关的影响可能导致关于疾病特异性微生物组变化的误导性结论。
该研究强调了微生物负荷作为微生物组结构的关键决定因素和疾病关联研究中的混杂因素的作用。此外,研究结果表明,考虑微生物负荷可以提高研究的准确性,为微生物组与疾病的关系提供更细致的见解,并有助于开发更好的肠道健康治疗方法。