测序技术的进步推动了“组学革命”,使大数据成为生物研究的主要内容。然而,许多研究人员觉得自己没有能力处理和分析这些庞大的数据集,这导致他们寻求生物信息学家的帮助。现在,在先进的人工智能(AI)技术的帮助下,分析不再是一个障碍。
研究人员开发了一种名为CellWhisperer的人工智能聊天机器人,可以分析转录组学数据,并用简单的英语报告其发现。现在,计算能力有限的研究人员可以通过向CellWhisperer提供非技术问题来探测他们的密集数据集,例如“这些选定的细胞是什么?”或“简明地描述样本。”
去年,被称为大型语言模型(large language models)的人工智能算法以其用清晰的英语回答提示的能力震惊了世界,但有些人已经超越了它们令人吃惊的本质,简化了数据分析。生物学家已经开始在文献库上训练这些模型,以便从出版物中快速检索信息。例如,GeneGPT可以通过查阅基因组数据库来回答有关基因的问题维也纳医科大学的生物信息学家、该研究的合著者莫里茨·谢弗(Moritz Schaefer)希望利用人工智能来简化转录组学数据的分析。“现在,生物学家需要学习编程语言,我们想扭转局面,说,‘电脑应该学习英语。’”
当生物信息学家分析转录组学数据时,他们会利用过去的研究来获取有关基因表达模式的背景信息。例如,他们通过与历史数据集交叉比较来检查一组基因是否典型地一起表达。人工智能模型需要访问相同的资源,因此Schaefer和他的同事在已有的转录组学数据上训练他们的算法。他们使用了来自Gene Expression Omnibus的2万个研究和来自CELLxGENE census的近40万个人类转录组。这些资料库为人工智能工具提供了根据基因表达模式识别细胞类型或疾病状态所需的培训材料。
为了使他们的工具更加用户友好,他们将训练有素的模型与一个可以回应英文提示的人工智能聊天机器人配对。他们转向了一个可微调的开源大型语言模型Mistral 7B,并使用超过100,000个关于转录组学数据的会话问题和答案示例对其进行了定制简单的问题包括“给出这些细胞的简要描述”,而复杂的问题要求模型列出最显著表达的基因或最活跃的细胞途径。最后,他们开发了一个擅长讨论转录组学的人工智能聊天机器人,并于今年10月向公众开放。
为了对CellWhisperer进行测试,Schaefer询问了他们在训练数据中排除的转录组学研究模型。从一个简单的任务开始,他的团队证实,在大多数情况下,该模型正确地识别了来自多个器官的不同细胞类型,包括脂肪、肌肉、肺和皮肤它稍微解决了区分相似细胞类型(即胰腺细胞)的复杂性然而,该模型难以处理来自病变细胞的一些转录组样本,这表明训练数据缺乏关于这些条件的足够信息。谢弗说,CellWhisperer在某些情况下效果很好,比如某些肝癌,但在其他疾病,比如皮肤黑色素瘤方面则更困难。
虽然CellWhisperer在大多数情况下都能做出正确的预测,但谢弗表示,用户应该意识到人工智能工具偶尔会犯错误。“重要的是要记住,这个人工智能工具对探索性分析和头脑风暴特别有帮助,它的所有反应都需要与其他实验交叉检查,”Schaefer指出。
都柏林圣三一学院(Trinity College Dublin)的免疫学家马克西姆·诺森科(Maxim Nosenko)没有参与这项工作,他说:“任何人都可以使用CellWhisperer分析测序数据,所以这当然是一个很大的优势。”他补充说,“当有大量的测序数据时,这个工具真的很及时。”
然而,他指出,在目前的形式下,CellWhisperer仅限于人类细胞的数据,因为研究人员排除了动物的发现。“至少目前,这不适用于小鼠研究。”Nosenko使用小鼠作为模型物种。
Schaefer计划以CellWhisperer的功能为基础。他说:“我们希望进一步发展它,使其成为一个半自主的研究助理。”目前,CellWhisperer每次只回答一个问题,但谢弗希望这个工具最终能自己进行全面的分析,而不需要闲聊。