南湖新闻网讯(通讯员 朱万超)保证粮食安全是全球农业科技工作者的共同使命。在过去80年,全世界粮食增产主要归功于品种遗传改良(尤其是杂交种)和栽培管理模式提升。但是,随着世界人口数量不断增长,粮食供给和育种革新面临新的挑战。尽管当前育种已经进入智能育种时代,但世界大部分地区仍停留在常规的育种时代,尤其是在发展中国家。因此,我们亟需整合现代的最新技术,提升育种技术,进一步加快遗传改良进程。
近日,由华中农业大学玉米团队李林教授领衔,联合国内多个研究团队,在国际期刊Molecular Plant在线发表了题为“The CropGPT project: A call for a global, coordinated effort in precision design breeding driven by AI using biological big-data”的文章。该文向全球发起了开放、共享与合作的智能育种倡导——CropGPT,探讨了如何整合现有资源(包括种质、生物大数据)及人工智能方法、升级现有育种技术,并提出了可能的运作流程及潜在理论基础。
图1 CropGPT智能设计育种架构
Generative Pre-trained Transformers (GPT)是一种强大的语言模型,它们利用转换器模型(一种基于自注意力机制的神经网络模型)从广泛的训练数据中学习并生成文本。GPT/NLP (Natural Language Processing) 的发展为通过增强生物大数据分析进行精准的智能设计育种带来了希望。因此,研究者在本论文中提出CropGPT新概念,并向全球发起CropGPT智能设计育种合作倡导。这是一种开放、合作以及共赢的团队育种模式,CropGPT需要集合育种家、生物学家、数学家、计算机学家、育种公司以及生物技术公司的力量(图1A)。首先,育种家提供优质的基础种质资源(elite founder),育种公司基于这些种质资源,利用DH等工程化技术构建育种群体;其次,生物学家基于前期产生和收集的多组学数据,构建基因网络,结合AI技术系统调查基因-性状的调控关系,快速批量克隆重要性状的功能基因集合;第三, 基于全基因组重要性状的全局功能基因,李林团队设计了多款精准智能育种芯片,可低成本地对群体中特定功能的基因集进行高通量基因分型,同时利用智能表型平台对群体进行高通量表型鉴定;第四,数学家整合基因型、表型,以及环境数据,建立适合的大数据模型,而计算机学家通过模型预测合理优化的组配方式(hybrid),并给出育种建议;最后,育种家根据育种建议进行杂交组合的配制、产量鉴定和抗逆性鉴定等。优质的组配材料可直接进行商业化应用,同时也可以再次加入基础种质(elite founder)中,通过迭代循环,不断优化大数据模型,提高预测的准确性,强化CropGPT智能育种能力。
数学家基于大规模育种语料库开发合适的大语言模型(LLMs)是CropGPT 成功的关键因素。在此基础上,研究者期望开发一种特征融合方法,它能够使CropGPT运用独立的预训练编码器来处理多模态数据,包括表型、环境因素、基因型、多组学数据、基因网络和文本等,从而统一生命语言(图1B)。理想情况下,神经网络和自监督学习技术将被整合到 CropGPT 中,以实现多种模态数据和人类自然语言之间的对齐和翻译。最终期望CropGPT 能够实现育种家的自由文本查询、多模态输入,并支持不同的下游任务。
综上所述,CropGPT项目旨在整合多种资源(种质与生物大数据),利用DH技术、高通量基因分型、高通量表型以及AI等先进技术快速、精准的预测,优化升级育种技术,服务广大育种人员。
西北农林科技大学农学院副教授朱万超(华中农业大学已出站博士后)为本文第一作者,华中农业大学植科院李林教授、信息学院李伟夫副教授为通讯作者,云南省农业科学院番兴明研究员、中国农科院作物所张红伟副研究员、华中农业大学信息学院陈洪教授和冯在文副教授等参与了思路设计与文章修改。
论文链接:https://doi.org/10.1016/j.molp.2023.12.015
审核:李林