基于可解释机器学习的地质高背景区土壤-烟草系统镉富集能力及驱动因素研究
文献类型:学位论文
| 作者 | 苟子论 |
| 答辩日期 | 2024 |
| 文献子类 | 硕士 |
| 授予单位 | 中国科学院大学 |
| 授予地点 | 中国科学院地球化学研究所 |
| 导师 | 刘承帅 |
| 关键词 | 地质高背景,可解释机器学习,土壤-烟草体系,协同/拮抗作用,Lisa分析 |
| 其他题名 | An interpretable machine learning-based study of Cd bioaccumulation capacity and driving factors in soil-tobacco system with a high-geochemical backgrounds |
| 英文摘要 | 我国西南喀斯特区广泛发育的碳酸盐岩在强烈的外动力作用下形成了镉(Cd)等重金属元素的地质高背景土壤。区域环境条件的差异叠加高强度的人为活动使得土壤-作物系统中Cd的分布模式存在较大异质性的同时,关键驱动因素之间的相互作用机制也更加复杂,增加了污染土壤的治理难度。全面系统开展地质高背景区土壤-作物体系累积Cd能力研究,确定不同因素贡献,探索分区管控方法,是制定科学合理的保护措施和实现污染土壤精准治理的重要前提。本研究以西南地质高背景区典型经济作物-烟草为对象,从超参数优化、性能评估及重要性分析三个方面,建立Cd从土壤向烟草迁移的可解释机器学习模型,用于评估区域内烟草对Cd的富集状况,并量化关键驱动因素的相对贡献。基于最优模型预测结果,结合LISA分析,对研究区域内需要优先修复的Cd污染区进行识别,本研究所取得的主要结果如下:(1) 描述性统计结果表明,研究区域内土壤Cd污染严重,点超标率为90.17%,较高的变异系数(0.71)表明土壤Cd的空间分异性明显。与Cd的分布类似,有益元素Se也表现出明显的富集模式,研究区域内土壤富硒率达75.84%,变异系数为0.65,两种元素的空间分布呈现出一定的耦合模式。相比之下,土壤pH、SOM含量等理化性质的分布较为均一,变异系数分别为0.16和0.41。(2) 相比于ANN,超参数优化后的XGBoost在预测烟草中Cd的生物累积能力上展示出了良好的性能(测试集R2=0.44,RMSE=0.06)。基于最优模型的预测结果,结合LISA分析,从区域尺度判断了BAFCd和土壤Se含量之间的相互依赖性。结果表明,土壤Se与BAFCd的空间聚集区的分布呈现出镜像互补的模式。不同显著区域组成的聚集区所代表Cd污染的潜在健康风险也不同,可以作为风险管控区划分的有效依据。(3) 在众多影响烟草中Cd生物累积的因素中,土壤Cd含量、土壤类型及母岩类型等代表喀斯特地质高背景区域内整体地球化学特征的因素影响最大,特征重要性(FI)为46.5%;其次是土壤pH、SOM及营养元素含量等代表土壤基本理化性质的因素,以及降雨量、日照时间等代表当地烟草种植气候条件的因素,FI分别为27.2%和25.2%;相比之下,受到数据获取方式和编码方式的限制,模型识别的人为活动的影响相对不显著,FI仅为1.1%。但并不能直接说明烟草中Cd的累积受人为活动的影响较弱。(4) 基于统计分析与偏依赖分析,从数据驱动的角度出发,确定了区域尺度上土壤Se和烟草Cd含量之间协同、拮抗作用发生的阈值。即低含量的土壤Se会促进烟草对Cd的生物累积,但当土壤Se含量达到0.8 mg/kg时,土壤Se对Cd的协同、拮抗作用达到平衡;并且随着土壤Se含量的进一步升高,其对烟草累积Cd的抑制能力逐渐明显。可解释机器学习模型为地质高背景区元素地球化学研究提供了有效工具。本研究从全局重要性及边际效应两个维度量化了Cd从土壤向烟草迁移过程中关键驱动因素的相对贡献。结合偏依赖分析,将区域性尺度下,元素之间的相互依赖性作为污染土壤分区治理方法学探索的一种积极尝试。为深入理解地质高背景区土壤-作物系统中Cd的地球化学行为提供了新的认识。 |
| 语种 | 中文 |
| 页码 | 66 |
| 源URL | ![]() |
| 专题 | 地球化学研究所_研究生 |
| 推荐引用方式 GB/T 7714 | 苟子论. 基于可解释机器学习的地质高背景区土壤-烟草系统镉富集能力及驱动因素研究[D]. 中国科学院地球化学研究所. 中国科学院大学. 2024. |
入库方式: OAI收割
来源:地球化学研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
