中国科学院机构知识库网格系统: 省级和县级尺度重点行业企业用地风险筛查方法研究-以云南省为例

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

省级和县级尺度重点行业企业用地风险筛查方法研究-以云南省为例

文献类型：学位论文


作者	陈晓辉
答辩日期	2022-06
文献子类	学术型学位
授予单位	中国科学院大学
授予地点	中国科学院地理科学与资源研究所
导师	雷梅
关键词	风险筛查企业用地样本选择性偏差半监督模型空间效应
学位名称	博士
学位专业	环境科学
英文摘要	重点行业企业用地风险筛查是污染地块风险管控的前期工作，对于污染地块管理的成本控制以及区域性风险管控起到至关重要的作用。欧美国家长期以来普遍认可基于本国或地区情况应发展各自的风险筛查方法的思路。我国已在污染地块政策标准、调查检测、风险评价以及场地修复等方面持续投入人力物力并取得相当的成果，借助信息化技术的进步以及起步点较高的优势，风险筛查已经发展出意在解决区域大、场地多且信息异构等问题的方法，但在污染场地类型多样、成因不明的背景下，以多属性决策方法为主的企业用地风险筛查方法主观性过强，而同时随着国家对建设用地土壤环境调查工作的深入，将面临如何利用有限的场地调查信息服务于污染地块风险管控。本研究将以有限的污染地块数据为支撑，探讨省级尺度下样本选择偏差和分层样本不足，以及县级尺度下企业聚集形成的空间效应溢出等问题在模型构建中的处理方法，以期形成省级和县级尺度上更精确合理的企业用地风险筛查方法。主要结论如下：（1）以区域污染地块样本驱动企业用地风险筛查模型，在省级尺度上面临 “样本选择偏差”、“分层样本不足”的问题。借助网络爬取及相关数据库已有场调数据构建样本集，但场调一般因再利用或流转而发生，故存在不符合样本随机性的人为选择偏差，容易造成影响因素识别的误判；同时，相对于云南省重点行业企业用地共 3124 个，其污染地块样本只有 28 个，属小样本训练集。另外，县级尺度往往存在部分企业用地聚集现象，只是基于个体影响因素进行风险筛查容易与实际不符，即存在企业用地聚集区域的“空间效应溢出”问题。（2）针对我国现行的企业用地数据集和污染地块数据集之间存在样本选择性偏差问题进行污染地块样本的 Heckman 纠偏，以云南省为例，其选择模型基础为“企业用地是否将要再流转或利用”，构建涉及社会影响因素、经济影响因素以及自然影响因素共 10 项的排他性指标，经纠偏后，对于儿童健康风险和成人健康风险逐步回归模型的 R 2 分别增加了28.57%和 29.17%，且逆米尔斯比率均显著（p<0.05），证明 Heckman 纠偏在污染地块样本中的必要性。（3）省级尺度上，针对分层样本不足的问题，本研究构建了基于半监督的随机森林混合效应模型（SS-RFME），增强了样本可靠性且提高了模型准确性。首先构建了风险筛查指标体系，形成一级指标层 H1“生产利用情况”、H2“场地危害性”、H3“污染物迁移风险”以及 H4“受体敏感性”。SS-RFME 设置每次抽取同类型行业无标签样本 20 个，近邻数据集设置为 5 个，按照近邻集可靠性评估将无标签样本分配给两个进一步迭代优化的随机森林混合效应模型（RFME），迭代 12 次，共将 240 个无标签样本放入训练集，经 SS-RFME 计算得到仅带截距效应的集成回归模型和双随机（截距+Q2）效应集成回归模型，经 AIC、BIC信息准则以及 AUC 验证，得到双随机效应集成回归模型在性能上优于仅带截距随机效应的集成回归模型。基于双随机效应回归模型可知，随机效应项主要受工业总产值（0.073~0.125）、运营时间（0.111~0.098）以及环境监督记录（0.033~0.045）的影响，而基于 SS-RFME 重要性分析得到，工业总产值重要性最高（0.32），其次则是运营时间（0.19），其他指标重要性都较小。SSRFME 模型与其变型半监督随机森林（SS-RF）、随机森林混合效应（RFME）进行 10-fold 交叉验证对比，模型拟合度至少提高 3.86%，而均方根误差（RMSE）和相对误差（RPE）分别至少小 22.47%和 13.12%。与其他风险筛查模型进行对比，包括模糊层次贝叶斯网络（FHBN）、随机森林（RF）和支持向量机（ SVM ）， SS-RFME 无论样本拟合（ R 2=0.85 ）还是十折交叉验证（R 2=0.81）都有较好表现，同时 AUC 验证得 SS-RFME 达到 0.809，性能最优。（4）针对县级尺度企业用地风险筛查存在空间溢出效应问题，构建了空间效应模型并修正县级企业用地风险筛查值。以云南个旧为例，双变量 Moran’s I 指数显示企业用地风险筛查初始排序与周边农用地土壤健康风险的空间相关性较弱（Moran’s I=0.083），故基于省级尺度风险筛查模型得到的县级企业用地风险筛查值有待商榷。首先，构建了以农用地健康风险为因变量，企业用地风险筛查值为自变量的空间效应模型，经 LM 和 Robust LM 检验使用空间杜宾模型，其空间滞后项为 0.467（p＜0.01），而企业用地风险筛查值的空间滞后项为0.336（p＜0.01）。在已构建的空间杜宾模型基础上，进行企业用地风险空间溢出效应分解，间接效应达到 76.60%，同时基于效应分解公式反向计算提取企业用地作用于邻近农用地的风险部分，将其作为修正值与原有企业用地风险筛查值相加，经修正前后企业用地风险筛查值和农用地健康风险的 Moran’s I 指数分析可得，双变量 Moran’s I 指数从0.083变为0.562，增加了5.77 倍，观测到工业聚集区的空间相关性得到明显加强，且其工业用地点位排序得到明显提前，提高了筛查的准确性，为小区域尺度准确筛查企业用地提供了思路。综上所述，本文研究成果对污染地块数据集存在样本选择偏差、省级尺度风险筛查模型中分层样本不足以及县级尺度上空间效应溢出等问题提供解决方案，从而在区域上改善重点行业企业用地风险识别方法和防控措施。
学科主题	环境科学
语种	中文
页码	118
源URL	[http://ir.igsnrr.ac.cn/handle/311030/184614]
专题	地理科学与资源研究所_研究生部
推荐引用方式 GB/T 7714	陈晓辉. 省级和县级尺度重点行业企业用地风险筛查方法研究-以云南省为例[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2022.

入库方式： OAI收割

来源：地理科学与资源研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。