1.53毫秒预判药性,香港理工、川大、鹏城实验室发布「AI分子透镜」GraphATC
编辑 | ScienceAI
一款新药从设计、研发、临床试验到走向市场,通常需耗费超过 26 亿美元的资金与 10 至 15 年的时间,而且越往后期成本越高。
比如,不适当的药物如果进入临床试验,除了因为没有期望的治疗效果而浪费医护和病人的大量时间和精力,更可能因为其潜在的副作用而对病人的生命安全产生威胁。
如何在研发早期快速、精准地判定药物的潜在治疗属性,成为当前药物设计与筛选中的关键问题。
近期,香港理工大学、四川大学、鹏城实验室的联合研究团队在《Briefings in Bioinformatics》期刊上发表了最新研究成果 GraphATC。
该方法借助原子级图神经网络,仅需 1.53 毫秒,即可完成一种药物ATC药性进行预判(如:该药物是否可以治疗呼吸系统疾病、心脑血管疾病等),为药物筛选与开发提供了一种高效的技术路径,从而规避因盲目进入临床试验而带来的各种风险。数据集和代码都已开源!
文章作者包括来自 3 所高校或研究机构的张翁渔,田奇,曹溢,范文琦,蒋冬梅,王耀威,李青,魏骁勇。魏骁勇教授为本文通讯作者。
期刊主页:https://doi.org/10.1093/bib/bbaf194
数据集和代码:https://github.com/lookwei/GraphATC
文章 PDF:https://academic.oup.com/bib/article-pdf/26/2/bbaf194/63012495/bbaf194.pdf
PaperWithCode:https://paperswithcode.com/dataset/atc-graph
️ATC 药物分类系统简介
ATC(Anatomical Therapeutic Chemical)分类系统是由世界卫生组织(WHO)制定的全球通用药物分类标准。该系统根据药物的作用器官或系统、治疗用途、药理机制及化学特性,将药物的活性成分划分为五个层级,其中从第一级到第五级分别表示解剖学,治疗学,药理学,化学,以及化合物上的分类。
例如,在新冠期间,对乙酰氨基酚(泰诺、扑热息痛的主要成分)是一种常用的退热药,能够有效缓解新冠症状。对乙酰氨基酚的 ATC 代码是 N02BE01,第一级 N 表示神经系统,第二级 02 表示止痛药,第三级 B 表示其他止痛退药及退热药,第四级 E 表示苯胺类,第五级 01 表示乙酰氨基酚。
️当前药物分类方法面临的挑战
️1. 数据集陈旧与覆盖有限:主流药物分类数据集未能覆盖近年新上市的药物,且多数仅含 ATC 系统的第一级标签,难以满足精细化研发所需。
️2. 深层分类样本稀缺:ATC 系统中更细粒度的第二至五级,因数据稀缺难以训练有效模型,成为药物建模中的瓶颈。
️3. 表示方法能力不足:传统方法依赖 SMILES 等线性字符串或预定义分子指纹,难以捕捉复杂结构间的拓扑与相互作用。
图 1:GraphATC 框架图
️GraphATC
GraphATC 的核心创新在于将药物结构建模为图结构,利用图神经网络来捕捉原子与键之间的高阶关联关系。具体而言,该研究在两大关键方向进行了系统性改进:
️1. 构建更全面的 ATC 分类数据集
团队首先全面整合并扩充了现有的 ATC 药物数据集。为此,团队从多个国际权威数据库(如 KEGG、PubChem、ChEMBL 等)中收集了最新的药物信息,通过严格的清洗、校验和数据融合,构建出一个覆盖最广、数据最全的 ATC-GRAPH 数据集,如图 1A 所示。
如图 2 所示,这一数据集不仅显著扩大了药物种类和数量,还首次覆盖了世界卫生组织 ATC 体系的五个层级,从广义的药物类别细化到具体化学成分,确保每种药物都有完整、准确的多级标签。
这一全面的数据整合过程,不仅克服了现有数据集普遍存在的「数据老旧」、「标签缺失」、「覆盖不足」等问题,也极大提升了数据集的时效性和代表性,为后续的模型训练和高精度药物分类提供了坚实的基础。
图 2:ATC-GRAPH 与现有数据集的数据对比
️2.构造更精确的药物表示形式
为解决传统分子序列表示(SMILES)在结构表达上的局限性,GraphATC 采用图神经网络进行建模(图 1B),同时针对特定药物种类引入以下设计:
️· 加入虚拟原子与虚拟化学键:如图 1C 所示,对于聚合物,模型在结构连接点引入「虚拟原子」和「虚拟化学键」作为中介,使模型能够捕捉单体间的交互关系。实验显示该机制可使聚合物类药物分类准确率提升 14.74%。
️· 引入基于 RNN 的子图融合机制:如图 1D 所示,对于多成分药物,GraphATC 利用 RNN 对各组分进行加权聚合,根据组分分子量与结构复杂度自适应地调整各组分对整体分类的影响。相比平均融合策略,该方法在多成分分类中提升准确率 14.46%。
️实验结果
团队在三个数据集、ATC 第一级、ATC 第二级上对 GraphATC 进行了系统评估,GraphATC 均取得了最优性能,如表 1、表 2 所示。
表 1:与 SOTA 方法在 ATC 第一级上的性能比较。最佳结果以粗体显示。
表 2:与 SOTA 方法在 ATC 第二级上的性能比较。最佳结果以粗体显示。
此外,模型在复杂药物上的结构关注机制表现显著:
️· 在聚合物药物中加入虚拟原子与虚拟化学键后,注意力由原先集中于单体中心,拓展至连接位点,如图 3 所示。
️· 在多成分药物中引入子图融合机制后,注意力由原先集中于较大子成分,扩散至多个子成分,如图 4 所示。
图 3:在聚合物药物中加入虚拟原子与虚拟化学键后的注意力图
图 4:在多成分药物中引入子图融合机制后的注意力图
️总结
GraphATC 提出了一种以图结构为基础进行药物多级分类的可行框架,显著提升了分类精度与推理效率。其主要贡献包括:
️· 构建了当前覆盖最广的 ATC-GRAPH 多级分类数据集;
️· 首次将 ATC 分类任务扩展至更细粒度的第二级;
️· 优化模型对复杂药物结构的精确表达能力;
️· 实现了分类性能和推理速度的双重优化。
该方法为后续的药物发现、药效预测、以及分子生成等任务提供了重要参考框架,也为 AI 辅助药物研发建立了更为坚实的技术基础。或许未来某天,当一种新型疾病袭来,AI 在短时间内就能从海量药物中锁定解药。
GraphATC 的数据集和代码均已开源,欢迎大家尝试!