背景

未知原发病灶的癌症(CUP,Cancers of unknown primary )是通过组织病理学诊断为转移、但其起源无法用常规诊断方法确定的癌症,通常表现为严重的积液,尽管联合化疗,预后却很差,只有 20% 的中位生存期为 10 个月。CUP 的特点通常是早期传播、侵袭性临床病程和多器官受累。通常用免疫组织化学推测其可能来源;但只有不到 30% 的 CUP 病例可以通过约 20 种不同免疫染色混合物来定位。准确识别原发部位是成功和量身定制治疗的关键。

来自天津医科大学的研究人员利用来自四家医院43,688 名患者的 57,220 张细胞学图像,开发了一种利用细胞学组织学 (TORCH) 进行肿瘤起源鉴别的深度学习工具,经过训练后可以识别恶性肿瘤并预测胸水和腹水中的肿瘤起源。文章发表在新一期的《Nature Medicine》。

他们用来自76,183名患者的90,572张细胞学涂片图像的大型数据集作为训练和数据集,排除掉缺乏临床或病理学支持证据和空白或聚焦不良的图像,最终数据集包含来自 43,688 名患者的 57,220 张图像。训练集由来自 20,638 个人的 29,883 张图像组成,涵盖 12 个肿瘤亚型或起源;包含 10,477 张良性疾病图像。用来自10,974 人的12,799 张图像和另外一组12,076 人的14,538 张图像作为测试集。利用细胞学图片和四个独立的深度神经网络来训练模型,从而产生了12个不同的基于人工智能的诊断模型,用于根据腹水和胸水的细胞学图像来预测腹水或胸水转移患者的肿瘤起源。为了检验TORCH的普遍性和可靠性,研究人员纳入了来自天津肿瘤医院(天津数据集)的4520名连续患者和来自烟台医院(烟台数据集)的12467名患者。

人机较量:初级病理学家 vs. 资深病理学家 vs. TORCH

他们邀请了两名初级和两名高级执业病理学家手动解读其中 495 个细胞学图像,其中包括 333 个恶性病例和 162 个良性病例,随后与 TORCH 的预测进行比较。两名初级病理学家的 top-1 准确率分别为 42.6% (95% CI 38.2–46.9%) 和 44.0% (95% CI 39.4–47.9%),而两位资深病理学家的准确率达到 69.7% (95% CI 66.3–73.5%) 和 57.0(95% CI 52.9–61.2%)。相比之下,人工智能TORCH 的 top-1 准确率达到 78.8%(95% CI 75.4-82.0%),显著高于四位病理学家的准确率(排列检验,所有P  < 0.001)。当按五个类别分层时,TORCH 在准确性(平均值 0.896 对比 0.813;P  = 0.038)、敏感性(平均值 0.880 对比 0.485;P = 0.038)方面优于病理学家。四位病理学家的评估者间一致率为 24.6%,这表明用于评估肿瘤起源的细胞学图像的解释存在很大的差异。TORCH和高级病理学家在区分良性疾病和恶性肿瘤方面都比初级病理学家具有更高的敏感性。

病理学家在 TORCH 协助下的表现

为了确定初级病理学家的表现是否可以在 TORCH 的帮助下得到提高,从测试集中随机选择了另外 496 个细胞学涂片图像(不与 495 个细胞学图像重叠)。TORCH预测的肿瘤起源提供给这两位初级病理学家参考,并要求他们独立进行鉴别诊断。将在 TORCH 的帮助下这些初级病理学家的表现,与之前初级和高级病理学家的手动解释结果进行了比较发现,初级病理学家在 TORCH 的帮助下取得了比没有 TORCH 时更高的总体 top-1 准确率(62.3%(95% CI 59.3–64.9%)对比 43.3%(40.0–46.0%);排列检验,P < 0.001),并达到了与高级病理学家相当的 top-1 准确率(63.3%(95% CI 60.3–66.1%);排列检验,P  = 0.777)。在良性疾病和恶性肿瘤的鉴别方面,初级病理医生的表现得到了大幅提高,敏感性显著提高。在 TORCH 辅助下的初级病理学家平均诊断得分显著高于没有 TORCH 的情况(1.326 (95% CI 1.269–1.382) vs 1.101 (95% CI 1.047–1.155);P  < 0.001)。

尽管初级病理医生在TORCH的辅助下诊断效能有所提高,但其诊断评分仍低于TORCH本身(1.326(95% CI 1.269-1.382)与1.829(95% CI 1.785-1.872);P  < 0.001)。TORCH 协助的初级病理学家并未达到与高级病理学家相同的水平(1.326(95% CI 1.269-1.382)与 1.428(CI 1.378-1.479);P  = 0.008)。

预测癌症起源的临床获益

为了确定接受与 TORCH 预测癌症起源一致的治疗的 CUP 患者是否获得临床获益,研究人员对其中 391 名患者进行了生存分析。经过认证的肿瘤学家审查了他们的住院记录,以确定他们的治疗是否与 TORCH 预测的癌症起源一致。在这 391 名患者中,分别有 276 名和 115 名被分为一致组和不一致组。一致组的总生存期明显更好,表现出显着更好的总体生存率,一致性(预测准确)是改善预后的独立有利因素。

讨论

胸腔积液和腹水中的肿瘤细胞数量通常远少于切除的肿瘤组织块中的肿瘤细胞数量。肿瘤标本的原始形态结构与肿瘤细胞簇之间存在巨大差异,这给负责确定鉴别诊断的病理学家带来了重大挑战。从这个角度来看,TORCH模型可以成为临床病理学家可用的有效辅助方法。识别积液标本中的肿瘤细胞对于肿瘤分期和选择适当的治疗方法非常有帮助。TORCH 能够高精度地识别转移至胸水或腹水的四种最常见的癌症系统。与专家组相比,TORCH模型在独立子集上的诊断评分优于高级和初级病理学家。当具有不同经验水平的初级细胞病理学家在该模型的帮助下,他们的诊断准确性显著提高。

有趣的是,即使是经验不足的初级病理学家也能从 TORCH 的帮助中受益匪浅,但他们的表现接近但仍略低于资深病理学家。这些差异可能是由于病理学家对 TORCH 的信任程度造成的。病理学家在第一次使用TORCH时对TORCH的信任度可能并不高,他们在决策方面仍然相对独立。由于在某些偏远或欠发达地区,细胞学家数量较少且经验不足,人工智能方法可以作为可靠的参考。


提问-留言

Please enter your name.sad
Please enter a comment.

Sign up for D.C. Diagnosis
newsletter

A weekly insider's guide to the politics and policies of health care.