科技动态

上海有机所交叉中心发表知识与数据双层代谢网络驱动的代谢组规模化精准注释技术 MetDNA3

发布时间:2025-09-01中国科学院生物与化学交叉研究中心

中国科学院上海有机化学研究所生物与化学交叉研究中心朱正江研究员课题组在Nature Communications杂志在线发表了题为“Knowledge and data-driven two-layer networking for accurate metabolite annotation in untargeted metabolomics”的研究论文(https://doi.org/10.1038/s41467-025-63536-6)。该研究开发了新一代代谢组规模化注释技术 MetDNA3。该方法通过知识与数据双层代谢网络的交互驱动,在非靶向代谢组学的质谱数据中实现了代谢物化学结构的高覆盖率与高准确度注释,并显著提升了大规模代谢物注释的计算效率。

非靶向代谢组学旨在系统解析生命体内的内源性小分子代谢物,为细胞代谢研究、疾病机制探索及生物标志物发现提供关键技术支撑。然而,由于代谢物种类繁多且结构复杂,代谢物化学结构注释始终是该领域的核心挑战。目前,质谱碎裂谱图库匹配方法仅能注释少量具有标准碎裂质谱图的代谢物,难以有效覆盖已知结构但缺乏标准碎裂谱图的“已知未知”代谢物(known unknown)以及化学结构全新的“未知未知”代谢物(unknown unknown)。近年来,基于代谢网络的代谢物注释方法逐渐成为重要的发展方向。朱正江课题组前期结合质谱技术与人工智能算法,提出了“结构谱学关联—代谢网络迭代—生化信息演进”等创新策略,系统开发了基于代谢网络的规模化精准定性技术MetDNAMetDNA2Nat. Commun.,2019,10: 1516Nat. Commun.,2022,13: 6656),实现了已知与未知代谢物的大规模结构鉴定。然而,由于代谢组学质谱数据高度复杂,网络解析仍然存在覆盖度有限、未知代谢物鉴定难度大等挑战。

为突破这些瓶颈,本研究在前期工作的基础上开发了新一代代谢组规模化注释技术MetDNA3。该方法首次发展了知识与数据双层代谢网络的交互驱动算法,分别通过数据和知识双网络数据预映射,及双层网络交互驱动的代谢物传播式迭代注释,显著提升了非靶向代谢组学中代谢物注释的效率、覆盖度与准确度。具体而言,该研究首先利用图神经网络预测构建了更全面的代谢反应网络(知识网络),显著提升了其覆盖度与连通性;随后,将非靶向代谢组学质谱实验数据依次通过母离子匹配、代谢反应关系映射及碎裂质谱相似性约束等步骤预映射到知识网络,从而形成了知识与数据双层代谢网络的拓扑结构。最后,以种子代谢物为起点,在双层网络中实现递归传播式的迭代注释,从而高效扩展了代谢物注释的范围(图1)。

1. 基于知识与数据双层代谢网络驱动的代谢组规模化精准注释技术MetDNA3

在算法机制上,MetDNA3通过双层网络拓扑实现了递归式的代谢物注释传播,仅需检索邻居代谢物及其邻居特征,并确认预先映射的跨网络链接,即可完成注释过程。这一机制有效避免了传统方法中冗余的母离子匹配和碎裂质谱相似度计算,大幅提升了计算效率,尤其适用于基于大型复杂网络的递归传播式迭代注释。与上一代算法MetDNA2相比,MetDNA3在传播过程中显著减少了邻居代谢物检索和MS2相似度计算次数,将每个数据集的平均计算时间由1082分钟缩短至77分钟,效率提升约14倍(图2)。

2. MetDNA3计算效率显著提升

在多种生物样本的代谢组学数据集测试中,MetDNA3共成功注释1,652个种子代谢物,平均每个样品可注释约6001,000个代谢物。在此基础上,通过双网络驱动的传播式迭代注释,最终注释了超过12,500个潜在的代谢物,其中包括9,410个已知代谢物和3,098个未知代谢物(图3)。性能评估结果显示,MetDNA3的注释覆盖率提升至68.1%,正确率提升至84.4%,均显著优于MetDNA2。这些结果充分展示了MetDNA3在覆盖度与准确性方面的卓越表现(图3)。此外,算法还发现并验证了两种未收录于人类代谢组数据库的新代谢物。研究同时表明,高特异性的知识网络对于提高网络注释的准确性和传播效果至关重要。

3. MetDNA3提高代谢物注释的覆盖率和正确率

综上,本研究创新性发展了基于知识与数据双层代谢网络驱动的代谢组规模化精准注释技术MetDNA3,结合图神经网络代谢反应预测,及数据和知识双网络数据预映射,在无需冗余计算的情况下,即可在大规模复杂代谢组学质谱数据中实现高效而精准的代谢物递归传播式迭代注释。MetDNA3显著提升了非靶向代谢组学中代谢物注释的效率、覆盖度和准确度,为代谢组学研究及相关生命科学与医学应用提供了有力的技术支撑。

MetDNA3可在MetDNA网站(http://metdna.zhulab.cn/)免费使用。该工作所开发的基于知识与数据双层代谢网络驱动的代谢组规模化精准注释算法及软件已经申请了国家发明专利和国家软件著作权。相关技术和软件的商业用途需要联系朱正江研究员进行授权使用。

中国科学院上海有机化学研究所生物与化学交叉研究中心朱正江课题组博士研究生张浩松是论文的第一作者,中国科学院上海有机化学研究所生物与化学交叉研究中心为第一单位。该工作得到了国家自然科学基金委、科技部、中国科学院及上海市科委等的资助。

论文链接:https://doi.org/10.1038/s41467-025-63536-6


附件下载: