
上海有机所开发AI大模型DeepSeMS揭示全球海洋微生物隐藏的生物合成潜能
次级代谢产物是微生物自身调控以及与环境或宿主之间的互作因子,其生物活性往往能够干预细胞特定的代谢途径,因而是很多现代药物的来源,例如抗生素、免疫抑制剂以及抗肿瘤药物等。随着抗生素耐药性危机的日益严重,以及对更加安全的天然药物需求不断增长,寻找和发现新颖的微生物次级代谢产物分子骨架及其生物活性成为了生命科学领域的前沿课题。但是,现有次级代谢产物的获取仍主要依赖于可培养的微生物,并且发现新颖的天然分子化学结构越来越困难。
中国科学院上海有机化学研究所与复旦大学、同济大学等单位合作,开发了AI大模型DeepSeMS,首次实现了从微生物基因序列出发直接预测生成次级代谢产物化学结构,并利用该模型发现了6万多种新的海洋天然产物,揭示了全球海洋微生物隐藏的生物合成潜能。相关成果于近日在线发表在Nature Computational Science(Xu T et al. Nat. Comput. Sci. 2026. DOI: 10.1038/s43588-026-00983-1),并以“Translating biodiversity into chemical diversity”为题同期配发Research Briefings(https://www.nature.com/articles/s43588-026-00984-0),遴选为核心亮点成果予以专题评述。
DeepSeMS是一个基于Transformer架构的序列到结构大语言模型(LLM),旨在从微生物生物合成基因簇(BGC)中预测可能次级代谢产物化学结构。DeepSeMS模型采用专门设计的序列表征策略和数据增强算法,实现了对各种复杂微生物次级代谢产物化学结构的精确预测,并能预测未知生物合成反应生产的新颖天然产物,显示了AI在揭示生物合成潜力方面的强大能力,为从生物多样性(Biodiversity)到化学多样性(Chemical diversity)的系统转译提供了一种可执行的新范式。

图1. DeepSeMS模型架构、序列表征策略和数据增强算法
作者利用DeepSeMS模型大规模挖掘了全球海洋微生物基因组,预测生成了60,327个次级代谢产物化学结构,其中97%为新的结构类型、69%具有新的结构骨架、58%具有新的骨架形状。特别是在北冰洋、南冰洋以及深层海域(深度>4,500 m,氧含量<100 μmol kg−1,水温~5–15 °C)中发现的次级代谢产物化学结构新颖性、多样性和特异性分布特征,为后续海洋天然药物开发、微生物生态分析和全球元素循环等研究建立了一个庞大的参考数据集。

图2. 全球海洋微生物次级代谢产物化学结构新颖性、多样性和特异性分布
作者进一步利用基于结构的虚拟筛选,发现了7,554个独特的海洋微生物次级代谢产物,含有几乎所有已知的抗菌活性结构特征,且具有与当前已知抗生素不同的新型侧链或取代基,表明它们具有规避现有抗菌耐药机制的潜力。研究还识别出1,884个与ectoine相关的候选分子。Ectoine是一类天然细胞保护剂,与微生物适应高盐、低温等环境压力密切相关,其结构类似物在医药、化妆品和生物技术领域具有进一步探索价值。研究还从未定义 BGC 类别中发现了587个候选分子,提示仍有大量未知生物合成区域有待深入解析。这些发现揭示了全球海洋微生物先前未被表征的生物合成特征和天然药物开发潜能,为生物医学创新提供了新机遇。

图3. 海洋中发现的新型类抗生素结构、细胞保护剂候选物和未知生物合成通路
此外,为了促进AI在微生物次级代谢产物发现中的广泛应用,作者已将DeepSeMS模型和代码开源,参数规模仅1.2亿,可在单张消费级显卡上部署。作者还开发了DeepSeMS模型的网络服务器(Web Server)版本,方便研究人员免部署在线使用模型。同时,作者也将本研究挖掘的全球海洋微生物次级代谢产物作为开源数据库,在DeepSeMS网络服务器上实现数据可视化浏览、筛选和分析,促进海洋天然药物的快速开发和生物资源的高效利用。

图4. DeepSeMS加速基于AI的新颖微生物次级代谢产物发现
本工作主要由上海有机所化学科学数据中心徐挺军副研究员,在复旦大学赵国平院士、焦娜研究员、同济大学朱瑞新教授等的合作和指导下完成,感谢中心主任薛小松研究员的大力支持。本工作得到了科技部、国家自然科学基金委和中国科学院相关项目的资助。
DeepSeMS模型在线使用:
https://biochemai.cstspace.cn/deepsems/
DeepSeMS模型开源代码:
https://github.com/lab-of-biochemai/DeepSeMS
论文信息:
Xu, T. et al. DeepSeMS: revealing the hidden biosynthetic potential of the global ocean microbiome with a large language model. Nature Computational Science (2026) https://doi.org/10.1038/s43588-026-00983-1.
附件下载:

