
近日,我所生物重点实验室董西洋研究员团队联合阿里云飞天实验室 AI4Science 团队在 Nature Communications(Nature 系列综合类子刊,中科院一区 top)发表了题为“LucaPCycle: Illuminating microbial phosphorus cycling in deepsea cold seep sediments using protein language models”的研究论文。研究团队开发 了基于蛋白质大语言模型的磷循环基因注释工具 LucaPCycle,并将其应用于深 海冷泉生态系统,有效增强了对冷泉生境中磷循环微生物多样性、生态功能及作 用机制的认识。LucaPCycle 能够挖掘以往未被发现的磷循环蛋白序列,并可广泛 适用于不同类型的生态系统。
图 1 LucaPCycle 的模型框架和基准测试
磷是生命必需元素,对海洋生产力具有关键影响。尽管地球化学证据表明 深海冷泉中存在活跃的磷循环过程,但相关微生物机制尚不清楚。传统的基于序 列比对方法常常无法检测到演化过程中的远源序列。为解决这一问题,研究团队开发了深度学习模型 LucaPCycle,该模型整合了蛋白原始序列信息和基于蛋白 质大语言模型的上下文嵌入特征。LucaPCycle 从全球冷泉基因与基因组数据库 的约1.5亿条蛋白进行大规模推理与预测,共发现了333,493种磷循环蛋白家族, 尤为重要的是,鉴定出 5,241 个传统方法无法注释的磷循环蛋白家族。在这些传 统方法未能注释的序列中,进一步发现了三类具有独特结构域的新型碱性磷酸酶 家族。结合孔隙水地球化学数据、宏转录组及代谢组等多方面的证据,研究结果 揭示了磷循环在冷泉生态系统中的重要性。该研究还发现系统发育多样的古菌, 包括 Asgardarchaeota、厌氧产甲烷古菌及 Thermoproteota,通过多种机制参与有 机磷的矿化和无机磷的溶解。此外,冷泉病毒可通过编码 PhoR-PhoB 调控系统 及 PhnCDE 转运体等辅助代谢基因,潜在地促进宿主对磷元素的利用。
图 2 三类远源碱性磷酸酶及其独特的结构域组成
该研究强调了基于蛋白质大语言模型的方法在挖掘“隐藏”蛋白序列中的 重要作用,不仅深化了对磷循环过程的认知,更展现了人工智能与微生物生态、 海洋科学的创新融合。此项工作为系统探索微生物生态功能和深海基因资源挖掘提供了新范式,有望推动环境基因组学与海洋生态研究进入智能化新阶段。
我所生物重点实验室章楚雯副研究员和阿里云飞天实验室算法专家贺勇为 本文共同第一作者,我所生物重点实验室董西洋研究员和阿里云飞天实验室生物 计算总监李兆融为共同通讯作者。其他参与者包括王洁妮、陈腾凯、Federico Baltar、胡敏杰、廖静和肖曦。本研究得到了国家自然科学基金项目、海洋三所 基本科研业务费和福建省自然科学基金项目等科研项目的资助。 论文原文链接:https://doi.org/10.1038/s41467-025-60142-4
福建省厦门市思明区大学路184号
电话:86-592-2195608 传真:86-592-2195608
邮件:zhoujuan@tio.org.cn