人工智能模型经常在医学诊断中发挥作用,特别是在分析x射线等图像时。然而,研究发现,这些模型并不总是在所有人口统计群体中表现良好,通常在女性和有色人种中表现更差。
这些模型还显示出了一些令人惊讶的能力。2022年,麻省理工学院的研究人员报告说,人工智能模型可以根据患者的胸部x光片准确预测患者的种族,这是最熟练的放射科医生无法做到的。
该研究小组现在发现,在人口预测方面最准确的模型也显示出最大的“公平差距”——也就是说,它们准确诊断不同种族或性别的人的图像的能力存在差异。研究人员说,研究结果表明,这些模型在进行诊断评估时可能使用了“人口统计学捷径”,这导致了对女性、黑人和其他群体的不正确结果。
“众所周知,高容量机器学习模型可以很好地预测人类人口统计数据,比如自我报告的种族、性别或年龄。这篇论文重新论证了这种能力,然后将这种能力与不同群体的表现不足联系起来,这是从未做过的,”麻省理工学院电子工程和计算机科学副教授、麻省理工学院医学工程与科学研究所成员、该研究的资深作者Marzyeh Ghassemi说。
研究人员还发现,他们可以以一种提高公平性的方式对模型进行再训练。然而,当模型在同一类型的病人身上进行测试时,他们的“去偏见”方法效果最好,比如来自同一家医院的病人。当这些模型应用于不同医院的患者时,公平性差距再次出现。
“我认为主要的结论是,首先,你应该在你自己的数据上彻底评估任何外部模型,因为模型开发者提供的训练数据的公平性保证可能不会转移到你的人群中。其次,只要有足够的数据,你就应该在你自己的数据上训练模型,”麻省理工学院研究生、这篇新论文的主要作者之一张浩然说。麻省理工学院研究生杨宇哲也是该论文的主要作者,该论文将发表在《自然医学》杂志上。埃默里大学医学院放射学和成像科学副教授Judy Gichoya和麻省理工学院电子工程和计算机科学教授Thuan和Nicole Pham的Dina Katabi也是该论文的作者。
消除偏见
截至2024年5月,FDA已经批准了882种支持人工智能的医疗设备,其中671种设计用于放射学。自2022年以来,Ghassemi和她的同事们证明了这些诊断模型可以准确地预测种族,他们和其他研究人员已经证明,这些模型在预测性别和年龄方面也非常出色,尽管这些模型没有接受过这些任务的训练。
“许多流行的机器学习模型具有超人的人口预测能力——放射科医生无法从胸部x光片中检测出自我报告的种族,”Ghassemi说。“这些模型很擅长预测疾病,但在训练过程中,它们正在学习预测其他可能不可取的事情。”在这项研究中,研究人员着手探索为什么这些模型对某些群体不起作用。特别是,他们想看看这些模型是否使用了人口统计学的捷径来做出预测,结果对某些群体的预测不太准确。当人工智能模型使用人口统计属性来确定是否存在医疗状况,而不是依赖图像的其他特征时,就会出现这些快捷方式。
利用波士顿贝斯以色列女执事医疗中心公开提供的胸部x光数据集,研究人员训练模型来预测患者是否患有三种不同的疾病之一:肺部积液、肺塌陷或心脏肿大。然后,他们用训练数据中的x射线测试了这些模型。
总的来说,这些模型表现良好,但大多数模型都存在“公平差距”,即男性和女性、白人和黑人患者的准确率存在差异。
该模型还能够预测x射线受试者的性别、种族和年龄。此外,每个模型在进行人口预测时的准确性与其公平差距的大小之间存在显著的相关性。这表明,这些模型可能使用人口统计学分类作为预测疾病的捷径。
然后,研究人员试图用两种策略来缩小公平差距。对于一组模型,他们训练它们优化“子组鲁棒性”,这意味着模型在表现最差的子组上表现较好会得到奖励,如果一个组的错误率高于其他组则会受到惩罚。
在另一组模型中,研究人员使用“群体对抗”方法,强迫他们从图像中删除任何人口统计信息。研究人员发现,这两种策略都相当有效。
Ghassemi说:“对于分布中的数据,你可以使用现有的最先进的方法来减少公平性差距,而不会对整体性能造成重大影响。”“子群体稳健性方法迫使模型对特定群体的错误预测敏感,而群体对抗方法试图完全删除群体信息。”
并不总是公平的
然而,这些方法只有在对模型进行相同类型的患者数据测试时才有效——例如,只有来自贝斯以色列女执事医疗中心数据集的患者。
当研究人员使用BIDMC数据测试“去偏见”的模型来分析来自其他五个医院数据集的患者时,他们发现模型的总体准确性仍然很高,但其中一些模型表现出很大的公平性差距。
“如果你在一组患者中使用这种模型,那么当你从不同地点的不同医院转移到一组新的患者时,这种公平性就不一定成立了,”张说。
研究人员说,这令人担忧,因为在许多情况下,医院使用的模型是根据其他医院的数据开发的,特别是在购买现成模型的情况下。
Ghassemi说:“我们发现,即使最先进的模型在与训练集相似的数据中表现最佳,也不是最优的——也就是说,在新的环境中,它们不能在整体和子组表现之间做出最佳权衡。”“不幸的是,这实际上是一个模型可能被部署的方式。大多数模型都是用一家医院或一个来源的数据进行训练和验证的,然后广泛部署。”
研究人员发现,在对新患者群体进行测试时,使用群体对抗方法去偏的模型比使用亚组稳健性方法去偏的模型显示出稍微更高的公平性。他们现在计划尝试开发和测试其他方法,看看他们是否可以创建更好的模型,在新的数据集上做出公平的预测。
研究结果表明,使用这些类型的人工智能模型的医院应该在开始使用它们之前对自己的患者群体进行评估,以确保它们不会对某些群体给出不准确的结果。
这项研究由谷歌研究学者奖、罗伯特·伍德·约翰逊基金会哈罗德·阿莫斯医学院发展计划、RSNA健康差距、拉库纳基金、戈登和贝蒂·摩尔基金会、国家生物医学成像和生物工程研究所以及国家心脏、肺和血液研究所资助。