中國科學院上海有機化學研究所生物與化學交叉研究中心朱正江研究員課題組在Nature Communications雜志在線發表了題為“Knowledge and data-driven two-layer networking for accurate metabolite annotation in untargeted metabolomics”的研究論文(https://doi.org/10.1038/s41467-025-63536-6)。該研究開發了新一代代謝組規模化注釋技術 MetDNA3。該方法通過知識與數據雙層代謝網絡的交互驅動,在非靶向代謝組學的質譜數據中實現了代謝物化學結構的高覆蓋率與高準確度注釋,并顯著提升了大規模代謝物注釋的計算效率。
非靶向代謝組學旨在系統解析生命體內的內源性小分子代謝物,為細胞代謝研究、疾病機制探索及生物標志物發現提供關鍵技術支撐。然而,由于代謝物種類繁多且結構復雜,代謝物化學結構注釋始終是該領域的核心挑戰。目前,質譜碎裂譜圖庫匹配方法僅能注釋少量具有標準碎裂質譜圖的代謝物,難以有效覆蓋已知結構但缺乏標準碎裂譜圖的“已知未知”代謝物(known unknown)以及化學結構全新的“未知未知”代謝物(unknown unknown)。近年來,基于代謝網絡的代謝物注釋方法逐漸成為重要的發展方向。朱正江課題組前期結合質譜技術與人工智能算法,提出了“結構譜學關聯—代謝網絡迭代—生化信息演進”等創新策略,系統開發了基于代謝網絡的規模化精準定性技術MetDNA和MetDNA2(Nat. Commun.,2019,10: 1516;Nat. Commun.,2022,13: 6656),實現了已知與未知代謝物的大規模結構鑒定。然而,由于代謝組學質譜數據高度復雜,網絡解析仍然存在覆蓋度有限、未知代謝物鑒定難度大等挑戰。
為突破這些瓶頸,本研究在前期工作的基礎上開發了新一代代謝組規模化注釋技術MetDNA3。該方法首次發展了知識與數據雙層代謝網絡的交互驅動算法,分別通過數據和知識雙網絡數據預映射,及雙層網絡交互驅動的代謝物傳播式迭代注釋,顯著提升了非靶向代謝組學中代謝物注釋的效率、覆蓋度與準確度。具體而言,該研究首先利用圖神經網絡預測構建了更全面的代謝反應網絡(知識網絡),顯著提升了其覆蓋度與連通性;隨后,將非靶向代謝組學質譜實驗數據依次通過母離子匹配、代謝反應關系映射及碎裂質譜相似性約束等步驟預映射到知識網絡,從而形成了知識與數據雙層代謝網絡的拓撲結構。最后,以種子代謝物為起點,在雙層網絡中實現遞歸傳播式的迭代注釋,從而高效擴展了代謝物注釋的范圍(圖1)。
圖1. 基于知識與數據雙層代謝網絡驅動的代謝組規模化精準注釋技術MetDNA3
在算法機制上,MetDNA3通過雙層網絡拓撲實現了遞歸式的代謝物注釋傳播,僅需檢索鄰居代謝物及其鄰居特征,并確認預先映射的跨網絡鏈接,即可完成注釋過程。這一機制有效避免了傳統方法中冗余的母離子匹配和碎裂質譜相似度計算,大幅提升了計算效率,尤其適用于基于大型復雜網絡的遞歸傳播式迭代注釋。與上一代算法MetDNA2相比,MetDNA3在傳播過程中顯著減少了鄰居代謝物檢索和MS2相似度計算次數,將每個數據集的平均計算時間由1082分鐘縮短至77分鐘,效率提升約14倍(圖2)。
圖2. MetDNA3計算效率顯著提升
在多種生物樣本的代謝組學數據集測試中,MetDNA3共成功注釋1,652個種子代謝物,平均每個樣品可注釋約600至1,000個代謝物。在此基礎上,通過雙網絡驅動的傳播式迭代注釋,最終注釋了超過12,500個潛在的代謝物,其中包括9,410個已知代謝物和3,098個未知代謝物(圖3)。性能評估結果顯示,MetDNA3的注釋覆蓋率提升至68.1%,正確率提升至84.4%,均顯著優于MetDNA2。這些結果充分展示了MetDNA3在覆蓋度與準確性方面的卓越表現(圖3)。此外,算法還發現并驗證了兩種未收錄于人類代謝組數據庫的新代謝物。研究同時表明,高特異性的知識網絡對于提高網絡注釋的準確性和傳播效果至關重要。
圖3. MetDNA3提高代謝物注釋的覆蓋率和正確率
綜上,本研究創新性發展了基于知識與數據雙層代謝網絡驅動的代謝組規模化精準注釋技術MetDNA3,結合圖神經網絡代謝反應預測,及數據和知識雙網絡數據預映射,在無需冗余計算的情況下,即可在大規模復雜代謝組學質譜數據中實現高效而精準的代謝物遞歸傳播式迭代注釋。MetDNA3顯著提升了非靶向代謝組學中代謝物注釋的效率、覆蓋度和準確度,為代謝組學研究及相關生命科學與醫學應用提供了有力的技術支撐。
MetDNA3可在MetDNA網站(http://metdna.zhulab.cn/)免費使用。該工作所開發的基于知識與數據雙層代謝網絡驅動的代謝組規模化精準注釋算法及軟件已經申請了國家發明專利和國家軟件著作權。相關技術和軟件的商業用途需要聯系朱正江研究員進行授權使用。
中國科學院上海有機化學研究所生物與化學交叉研究中心朱正江課題組博士研究生張浩松是論文的第一作者,中國科學院上海有機化學研究所生物與化學交叉研究中心為第一單位。該工作得到了國家自然科學基金委、科技部、中國科學院及上海市科委等的資助。