EN

科研动态

您现在的位置: 首页 新闻 科研动态

药物所汪小涧课题组、奇虎360人工智能研究院邓亚峰团队合作研发出基于深度学习的化合物识别新方法CReSS

2021年11月15日,中国医学科学院药物研究所天然药物活性物质与功能国家重点实验室汪小涧课题组与奇虎360人工智能研究院的邓亚峰团队合作在分析化学领域权威期刊Analytical Chemistry上作为封面文章在线发表了题为“Cross-Modal Retrieval between 13C NMR Spectra and Structures for Compound Identification Using Deep Contrastive Learning”的论文,报道了基于人工智能跨模态深度对比学习方法建立的分子结构识别的CReSS系统。该研究对未知分子结构,特别是天然产物分子的结构识别与纠错具有重要的意义。

分子结构识别是有机化学及天然产物化学的重要研究内容,通过核磁碳谱数据库搜索获得分子结构是分子结构识别研究的经典方法。但是,现有核磁碳谱数据库的容量有限,通过传统人工添加扩充碳谱数据库容耗时耗力,限制了分子结构识别研究的准确率和效率。研究团队通过前期基于图像识别的图谱信息提取系统SRCV,从文献中提取收集了大量核磁碳谱数据,并进一步创造性地采用人工智能跨模态深度对比学习方法建立核磁碳谱和分子结构式的跨模态表示模型,并基于向量检索,在行业内首次建立了用于分子结构识别的CReSS系统。该系统基于计算生成的数据做大规模预训练,并结合真实数据精调,可自主学习到核磁碳谱数据与分子结构之间的内在关系。对于千万规模的分子结构底库,采用四万条碳谱数据进行识别测试,CReSS的平均准确率约为91.64%,平均耗时仅为0.114s。不仅如此,增加分子量过滤器可进一步提升CReSS的识别准确率,当分子量的容差范围设置为5Da时,准确率达98.39%。目前,CReSS已支持在上亿级的分子库中进行化合物识别,且在分子结构识别与解析以及结构纠错等研究领域具有广泛的应用潜力。

1web.png

药物所汪小涧副研究员和奇虎360人工智能研究院院长邓亚峰为本文的共同通讯作者。汪小涧课题组杨卓硕士,杨敏健博士和邓亚峰团队的宋剑飞为共同第一作者。邓亚峰团队的么琳在模型构建及算法优化作出突出的贡献。

相关工作得到了国家重点研发计划项目(No.2018AAA0100400)、中国医学科学院医学与健康科技创新工程(2021-1-I2M-028)和学科建设项目(201920200802)的资助。

此外,汪小涧课题组一直致力于人工智能辅助结构解析领域的研究,系统开展了核磁图谱识别、化合物识别及结构解析等一系列研究。此前研发的基于图像识别的一维核磁图谱系统SRCV,实现了准确快速的从碳谱和氢谱中提取数据。相关研究成果作为封面文章于2020年11月10日发表在计算化学领域权威杂志Journal of Chemical Information and Modeling。

目前,CReSS系统已开放辅助分子结构解析研究。CReSS链接:http://cnmr.ai.360.cn/

论文链接:https://pubs.acs.org/doi/10.1021/acs.analchem.1c04307

论文链接:https://pubs.acs.org/doi/10.1021/acs.jcim.0c01046


合并_web.png