基于深度学习的离子液体性质预测和筛选
文献类型:学位论文
作者 | 陈俊武 |
答辩日期 | 2022-06-01 |
文献子类 | 硕士 |
授予单位 | 中国科学院过程工程研究所 |
导师 | 董坤 |
关键词 | 离子液体,高通量筛选,抗生素,深度学习,迁移学习 |
英文摘要 | 近些年,细菌耐药性问题严重威胁人类健康,致使新型抗生素的研发迫在眉睫。离子液体(ILs)具有可设计性强和化学结构多样等特点,有望成为新一代抗生素。然而ILs种类繁多,仅采用成本高、周期长的体外实验筛选ILs不切实际,因此开发高效的ILs结构-抗菌活性预测模型意义重大。为此,本文提出一种基于深度迁移学习的ILs型抗生素的高通量筛选方法,旨在解决ILs数据稀少及离子结构-活性关系复杂的难题,有望为新型抗生素的发现提供新的策略。本文采用消息传递神经网络(MPNN)和迁移学习方法得到性能可靠的ILs抗菌性和毒性预测模型,并设计高通量筛选流程,主要工作如下:(1)建立有机分子和ILs对金黄色葡萄球菌的抗菌活性数据集(MolData和ILsData),数据量分别为36993和120。对比分析表明两者在分子量、元素种类、抗菌活性和化学空间等方面的数值分布相近,有利于迁移学习。模型架构探究表明基于有向边传递机制的D-MPNN模型具有更佳的抗菌性预测性能。此外,探究了数据集大小、数据分割方法、超参优化和模型集成对D-MPNN模型预测性能的影响,从而获得最佳的模型训练设置和超参选择。进一步采用MolData预训练模型,并在ILsData上微调模型。结果表明,在冻结预训练模型的消息传递层参数的条件下,迁移学习能使模型的ROC-AUC值提升9.41%,并使标准偏差降低10.99%,且最佳模型的ROC-AUC值可达97.56%。(2)建立有机分子和ILs的毒性数据集(MolToxData和ILsToxData),数据量分别为4677和271。与(1)中流程相似,在最佳模型设置下,使用MolToxData预训练模型,并在ILsToxData上微调模型。结果表明,在不冻结预训练模型参数的条件下,迁移学习能使模型的ROC-AUC值提升3.51%,并使标准偏差降低4.91%,且最佳模型的ROC-AUC值可达91.00%。(3)建立包含约200万种ILs的理论结构库(ILTSD),并与ILsData、MolData、ILsToxData和MolToxData进行对比。分析表明ILTSD在分子量、元素种类和化学空间方面均具有比其它4个数据集更广泛的数值分布。非线性降维分析表明迁移学习可以扩宽模型的适用范围,有利于模型在庞大的ILTSD上进行预测。进一步,使用(1)和(2)中的最佳模型预测ILTSD中ILs的抗菌活性和毒性,并筛选出13299种预期具有抗菌活性且无毒性的ILs。最后,对候选ILs进行可行性评估,获得1000种有望成为新型抗生素的ILs。 |
语种 | 中文 |
源URL | [http://ir.ipe.ac.cn/handle/122111/60992] ![]() |
推荐引用方式 GB/T 7714 | 陈俊武. 基于深度学习的离子液体性质预测和筛选[D]. 中国科学院过程工程研究所. 2022. |
入库方式: OAI收割
来源:过程工程研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。