——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求
——中國科學(xué)院辦院方針
近日,中國科學(xué)院上海藥物研究所鄭明月團(tuán)隊(duì)開發(fā)了一種由大型語言模型驅(qū)動的NMR數(shù)據(jù)提取工具NMRExtractor,能夠從海量開放獲取的文獻(xiàn)中自動提取實(shí)驗(yàn)性NMR數(shù)據(jù),構(gòu)建出了迄今為止規(guī)模最大的開放式NMR數(shù)據(jù)庫——NMRBank。相關(guān)研究論文" NMRExtractor: leveraging large language models to construct an experimental NMR database from open-source scientific publications"于2025年5月28日在Chemical Science在線發(fā)表。
核磁共振(NMR)光譜是化學(xué)研究中強(qiáng)大且應(yīng)用廣泛的技術(shù)之一,NMR提供了關(guān)于分子環(huán)境的詳細(xì)信息,這些信息對結(jié)構(gòu)和原子間相互作用非常敏感。在過去二十年中,研究人員開發(fā)了多個(gè)數(shù)據(jù)庫用于存儲分子的1H和13C NMR光譜。例如HMDB、? ?NMRShiftDB2和NP-MRD,然而這些數(shù)據(jù)庫的規(guī)模仍有限,最大的開放NMR數(shù)據(jù)庫NMRShiftDB2僅包含53,954個(gè)實(shí)驗(yàn)測得的光譜,涵蓋約44,909個(gè)分子。
在這項(xiàng)工作中,研究團(tuán)隊(duì)提出了一種基于大型語言模型的高精度NMR數(shù)據(jù)提取工具——NMRExtractor,可自動從科學(xué)文獻(xiàn)中提取包括化合物名稱、NMR條件和1H/13C NMR化學(xué)位移在內(nèi)的關(guān)鍵信息(圖1)。通過該工具,研究團(tuán)隊(duì)從PubMed數(shù)據(jù)庫中的570萬余篇公開文獻(xiàn)中批量提取NMR數(shù)據(jù),構(gòu)建了當(dāng)前最大的開源實(shí)驗(yàn)NMR數(shù)據(jù)集NMRBank,其包含225,809條NMR數(shù)據(jù)記錄,每條記錄包括:化合物的IUPAC名稱、SMILES描述符、1H/13C NMR化學(xué)位移、模型賦予的置信度評分,以及文章PMID和期刊名稱等元數(shù)據(jù)。分析表明,NMRBank所覆蓋的化學(xué)空間顯著超越現(xiàn)有的公共NMR數(shù)據(jù)集。該提取流程具備高度可擴(kuò)展性,支持新研究論文的自動處理,使NMRBank可持續(xù)更新。該方法不僅拓展了開放NMR數(shù)據(jù)的覆蓋范圍,也為基于人工智能的NMR預(yù)測及相關(guān)化學(xué)研究奠定了數(shù)據(jù)基礎(chǔ)。
圖1. NMRExtractor提取流程和NMRBank數(shù)據(jù)集構(gòu)建的示意圖
南京中醫(yī)藥大學(xué)與上海藥物所聯(lián)合培養(yǎng)碩士研究生王慶功、上海藥物所博士研究生張瑋為本文的共同第一作者。上海藥物所鄭明月研究員、博士后熊嘉誠、上海科技大學(xué)助理研究員付尊蘊(yùn)為本文通訊作者。本研究得到了國家自然科學(xué)基金、國家重點(diǎn)研發(fā)計(jì)劃、上海藥物所與上海中醫(yī)藥大學(xué)中醫(yī)藥創(chuàng)新團(tuán)隊(duì)聯(lián)合研究項(xiàng)目、上海市超級博士后計(jì)劃、上海市市級科技重大專項(xiàng)等項(xiàng)目的資助。
原文鏈接:https://pubs.rsc.org/en/content/articlepdf/2025/SC/D4SC08802F