基于分子结构深度学习的化学品雌激素受体激活活性预测
文献类型:学位论文
作者 | 王理国 |
答辩日期 | 2021-06 |
文献子类 | 硕士 |
授予单位 | 中国科学院大学;中国科学院生态环境研究中心 |
授予地点 | 北京 |
导师 | 张爱茜 |
关键词 | 雌激素受体激活活性,定量构效关系,深度学习,分子 Smiles 编码,三维分子表面静电势点云 estrogen Receptor Agonist Activity, Quantitative structure-Activity Relationship, Deep Learning, Molecular Smiles String, Three-dimensional Molecular Surface Electrostatic Potential Point Cloud. |
学位名称 | 理学硕士 |
学位专业 | 环境科学 |
其他题名 | Deep Learning on Molecular Structure for Estrogen Receptor Agonist Activity Prediction of Chemicals |
英文摘要 | 随着工业的发展,排放进入环境的各类化学品种类日益增多,其中部分化学 品进入生物体内后可以模拟和干扰机体内源性激素的结合、合成、转运和代谢等 行为,从而影响生物体内分泌系统的正常功能,对环境生物乃至人体造成不良影 响,成为环境内分泌干扰物。而环境雌激素是重要的一类环境内分泌干扰物,其 通过干扰人体内源性雌激素信号通路而导致生殖功能障碍、出生缺陷、生长发育 异常和生殖系统肿瘤等健康危害。雌激素效应筛查已成为当今化学品环境风险评 价的一个重要组成部分。面对爆炸式增长的化学品毒性评估需求,迫切需要计算 方法对化学品潜在雌激素干扰效应进行快速筛查,其中基于定量构效关系 (Quantitative Structure–Activity Relationship,QSAR)构建预测模型就是常见方 法之一。传统定量构效关系模型中,分子的结构需要通过预定义的可量化的结构 描述符作为模型输入。但这一中间过程往往会带来分子结构信息的损失和结构参 数的冗余。深度学习为大数据时代基于 QSAR 研究的化学品活性预测提供了一 个前所未有的机遇,其强大的学习能力和灵活的构架使得模型可以接受更多形式 的分子结构输入,不再需要可量化的分子结构描述符。鉴于此,本论文利用美国 ToxCast 项目包含了 18 个体外试验的雌激素受体活性高通量测试数据,开展了 基于分子结构深度学习的化学品雌激素受体激活活性预测方法研究,以期实现化 学结构到其雌激素受体激活活性的直接映射,提高预测模型的环境雌激素筛查能 力。 论文主要取得了如下 2 方面的研究进展: 1、构建基于简化分子线性输入规范编码和卷积神经网络的环境雌激素筛查 模型 本研究采用在诸多领域取得巨大成功的深度学习算法卷积神经网络,开发了 仅使用规范的简化分子线性输入规范(Simplified Molecular Input Line Entry System,SMILES)编码表征化学品结构,基于独热编码(One-Hot Encoding)实 现离散无序信息数字化输入的环境雌激素筛查模型。每个化学品的模型输入为 1 个 38×120 的数字矩阵,所建模型拥有不同尺度的多个卷积核以加强其 SMILES 学习的能力。新方法所建模型展现出了比已有同类机器学习研究更加优异的预测效果,内部测试的受试者工作曲线(Receiver Operating Characteristic Curve,ROC) 下面积达 0.822, 准确率为 0.867, 平衡准确率为 0.820。模型在外部测试集的预测 中也体现了良好的泛化能力,准确率高达 0.974。此外,通过相似结构化学品的 活性比较和解析能最大化激活特定网络层的模型输入,可从模型中挖掘得到多层 次的决定活性的结构特征。简单分子 SMILES 深度学习在环境雌激素筛查中的成 功应用不仅证明了深度学习算法强大的特征学习能力,还有望为化学品雌激素受 体激活活性的评估提供不需专业知识、用户友好、简便高效的虚拟筛查工具。 2、提出并实现基于分子 3D 表面静电势点云的化学品雌激素受体激活活性 深度学习预测方法 已有构效关系深度学习研究中所用的原始分子结构表征仍多局限于一维文 本和二维分子图,难以详尽描述化学品在三维空间与生物分子进行相互作用的结 构特征。受三维目标检测领域的点云数据结构启发,本研究提出了一种包含静电 势信息的分子三维表面静电势点云(Surface Electrostatic Potential Point Cloud, SepPC)用以描述分子结构,并发展了一种可以处理该无序点云数据的深度神经 网络模型 SepPCNET。所建立的二元分类模型在活性和无活性样本的判断中有着 0.828 和 0.889 的准确性,在内部验证集和外部测试上分别实现了 0.883 和 0.925 的准确率。SepPCNET 不仅表现出显著优于最新机器学习模型的预测性能,同时 能够分辨异构体细微结构区别所造成的活性差异。此外,所建立的 SepPCNET 模 型还可通过可视化模型关键点和分析模型检测的点特征,获得对雌激素受体激活 分子机制的进一步认识和理解,体现出其他深度学习模型所不具备的结果可解读 性。 |
页码 | 77 |
源URL | [https://ir.rcees.ac.cn/handle/311016/47077] ![]() |
专题 | 生态环境研究中心_环境化学与生态毒理学国家重点实验室 |
推荐引用方式 GB/T 7714 | 王理国. 基于分子结构深度学习的化学品雌激素受体激活活性预测[D]. 北京. 中国科学院大学;中国科学院生态环境研究中心. 2021. |
入库方式: OAI收割
来源:生态环境研究中心
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。