中心概况
科研进展
Analytical Chemistry | 朱正江课题组发表基于神经网络构建的离子淌度质谱CCS值数据库AllCCS2
发布时间:Sep 7, 2023
中国科学院上海有机化学研究所生物与化学交叉研究中心朱正江研究员团队在 Analytical Chemistry 杂志在线发表了题为“ AllCCS2: Curation of Ion Mobility Collision Cross-Section Atlas for Small Molecules Using Comprehensive Molecular Representations ”的研究论文( Analytical Chemistry, 2023, https://doi.org/10.1021/acs.analchem.3c02267 )。该工作在 AllCCS ( Nature Communications, 2020, https://doi.org/10.1038/s41467-020-18171-8 )的基础上,进一步利用多种类型分子表征建立了离子淌度质谱 CCS 值的神经网络预测模型和数据库。朱正江课题组博士研究生张浩松是论文的第一作者,中国科学院上海有机化学研究所生物与化学交叉研究中心为第一单位。
离子淌度质谱( IM – MS )的快速发展彻底改变了小分子的多维分离和分析,并应用于代谢组学、脂质组学和暴露组学研究中。在离子淌度分离中,化合物离子在电场的作用下与中性缓冲气体相互作用,导致漂移时间的差异,并以碰撞横截面积( CCS )进行表示。因此,参考 CCS 数据库的建立对于 IM – MS 成功应用于小分子分析起着关键作用。目前的 CCS 数据库建立具有多种策略,其中基于机器学习的训练和预测由于其高精度、高效率和低成本,作为建立参考 CCS 数据库的策略而受到广泛欢迎。
随着多种仪器平台的发展,如漂移管离子淌度质谱( DTIMS )、行波离子淌度质谱( TWIMS )、俘获离子淌度质谱( TIMS )等,对支持不同仪器平台的 CCS 数据库的需求不断增加。另一方面,基于机器学习的方法通常依赖于分子表征,例如分子描述符,来建立 CCS 值和小分子之间的关系。因此,深入解析分子并获得全面表征,也是获得预测 CCS 值的重要挑战。而以往的研究多依赖以分子为整体的分子描述符,或只使用简化分子输入线输入系统( SMILES )字符串,这可能会忽略分子的重要拓扑信息,使得表征分子时存在局限性。针对上述问题,本工作进一步利用多种类型分子表征(包括质谱特征、分子描述符特征和使用图卷积网络提取的图特征)建立了离子淌度质谱 CCS 值的神经网络预测模型和数据库 AllCCS2 (图 1 )。
图 1. AllCCS2 模型示意图
AllCCS2 进一步纳入了新获得的实验 CCS 值作为训练数据,其中包括 10384 条 CCS 值记录和 7713 个统一的 CCS 值,并且使用了 1737 个 CCS 值作为外部数据集用于测试模型效果。 AllCCS2 利用多种分子表征(包括质谱特征、分子描述符和使用图卷积网络提取的图特征)建立了神经网络预测模型,实现了卓越的预测精度,在训练集、验证集和测试集中分别实现了 0.31% 、 0.72% 和 1.64% 的中值相对误差,在准确性和覆盖率方面超越了现有的 CCS 预测工具(图 2 )。
图 2. AllCCS2 模型效果
此外, AllCCS2 还表现出与不同仪器平台( DTIMS 、 TWIMS 和 TIMS )的出色兼容性。工作中还使用代表结构相似性( RSS )和模型预测变异( MPV )综合研究了 AllCCS2 中来自训练数据和预测模型的预测不确定性。值得注意的是,与训练集结构高度相似且模型预测变化较低的小分子表现出更高的准确性和更低的相对误差,这能够为预测结果的应用提供参考(图 3 )。
图 3. 预测误差与 RSS 和 MPV 的相关关系示意图
AllCCS2 是支持 IM – MS 技术应用的宝贵资源,为了方便相关领域研究者使用该工具, AllCCS2 数据库和预测工具可在 http://allccs.zhulab.cn/ 免费访问。相关技术和软件的商业用途需要联系朱正江研究员进行授权使用。 该工作得到了国家自然科学基金委、科技部、中国科学院、上海市科委等的资助。
中国科学院生物与化学交叉研究中心 版权所有 电话:021-68582285/68582282
地址:上海市浦东张江高科技园区海科路100号 沪ICP备05005485号-3
友情链接
刘南实验室
ZHU LAB
LIU CONG LAB
何凯雯实验室
上海有机化学研究所