对细胞类型进行注释是单细胞RNA测序(scRNA-seq)分析中的基本步骤。这一过程往往费时费力,需要专家将每个细胞簇的高表达基因与经典的细胞标志物基因进行比较。尽管目前已经开发出自动注释方法,但基于标志物基因的手动注释方法仍在广泛使用。
哥伦比亚大学和杜克大学的研究人员近日发现,人工智能模型GPT-4能够准确解释细胞类型,与专家的手动注释结果具有很高的一致性。这项研究成果于3月25日发表在《Nature Methods》杂志上。
GPT-4是OpenAI公司去年发布的大型语言模型。对多种组织和细胞类型进行评估后,GPT-4已证明有能力生成细胞类型注释,这些注释与人类专家的手动注释密切相关,并且超越了现有的自动算法。
这一功能有望大大减少注释细胞类型所需的工作量和专业知识,以往的注释过程可能需要数月时间。此外,研究人员还开发出GPTCelltype(R语言软件包),方便人们使用GPT-4进行细胞类型自动注释。
哥伦比亚大学的生物统计学助理教授Wenpin Hou博士表示:“尽管自动化的细胞注释方法已被开发出来,但解释科学数据的手动方法仍然在广泛使用,这个过程可能需要几周甚至几个月的时间。我们假设,GPT-4可以准确注释细胞类型,将这一过程从手动转化为半自动甚至全自动过程,并且更具成本效益。”
研究人员评估了GPT-4在10个数据集上的表现,这些数据集涵盖了五个物种、数百种组织和细胞类型,包括正常样本和癌症样本。研究人员使用自己开发的软件工具 GPTCelltype 对 GPT-4 进行了查询。同时,他们还评估了其他GPT版本和手动方法,作为参照工具。
研究人员首先探索了可能影响GPT-4注释准确性的各种因素。他们发现,在使用top 10差异基因时,GPT-4表现最好,并且在各种提示策略中表现出相似的准确性,包括基本提示策略、受思维链启发的提示策略和重复提示策略。在大多数研究和组织中,GPT-4与手动分析相匹配的细胞类型超过75%,这表明它有能力生成与专家可比的细胞类型注释。
此外,在某些细胞类型中,GPT-4与手动注释的一致性较低,并不一定意味着GPT-4的注释是不正确的。以基质细胞或结缔组织为例,GPT-4带来了更准确的细胞类型注释。它的注释速度也明显更快。
研究人员还评估了GPT-4在复杂的真实数据场景中的稳健性,发现GPT-4区分纯细胞和混合细胞类型的准确率为93%,区分已知和未知细胞类型的准确率为99%。他们还利用之前的模拟研究评估了GPT-4方法的重现性。在85%的案例中,GPT-4为相同的标志物基因生成相同的注释。“所有这些结果都证明了GPT-4在各种情况下的稳健性,”Hou谈道。
尽管GPT-4超越了现有的方法,但仍存在一些局限性,包括验证GPT-4的质量和可靠性所面临的挑战,因为它几乎没有披露其训练过程。