中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多源数据的洪涝灾害实体提取与知识图谱构建

文献类型:学位论文

作者张敏
答辩日期2023-06
文献子类学术型学位
授予单位中国科学院大学
授予地点中国科学院地理科学与资源研究所
导师王卷乐
关键词洪涝灾害 实体抽取 深度学习 知识图谱 知识服务
学位名称博士
学位专业地图学与地理信息系统
英文摘要近年来自然灾害发生频率和强度不断增高,损失日益加剧,防灾减灾已经成为世界各国面临的共同挑战。洪涝灾害具有显著的影响范围广、突发性强、发生频繁、危害性大等特点,是对人类生存影响最为严重的自然灾害之一。大量且持续增长的洪涝灾害研究相关学术文献蕴含着丰富的知识,但限于人工提取知识能力不足,从文献大数据中自动提取洪涝灾害研究方法知识是一个重大的挑战。本研究面向防灾减灾数据服务向知识服务转化的发展需求,基于具有长尾效应的洪涝灾害相关学术文献,借助自然语言处理技术,从文献摘要和全文的角度开展洪涝灾害知识抽取研究,并融合多源灾害数据构建洪涝灾害知识图谱。主要结论和贡献如下:(1)基于摘要文本的洪涝灾害研究知识全局挖掘借助自然语言处理技术,从14076 篇洪涝灾害相关学术文献中,挖掘全球洪涝灾害研究的趋势和热点,包括开展研究主题分类;解析洪涝灾害子类;探究研究机构地理分布特征;提取洪涝灾害研究热点区域,并与洪涝灾害频发点对比,发现灾害研究频率与实际发生频率之间的关系。研究结果表明,1990-2020 年间洪涝灾害领域的研究热点是灾害风险及预测研究,美国、中国和英国是洪涝灾害研究的主要贡献者,暴雨、沿海洪涝和山洪是研究频次排名前三位的洪涝灾害子类。洪涝灾害研究热点区域在亚洲、欧洲、北美洲、南美洲、大洋洲、非洲均有分布,且研究频次与洪涝灾害发生频次具有明显的高值和低值地理相关性(H-H、H-L、L-H、L-L),但洪涝灾害研究在全球和洲际尺度上存在明显的地理不平衡性。(2)基于文献全文的洪涝灾害研究方法句抽取为获取更多有价值的洪涝灾害研究知识,基于主题分类结果进行文献筛选,解析获得学术文献全文数据,采用多种传统机器学习和基于人工神经网络的深度学习方法开展句子级的知识抽取研究。结果表明,基于人工神经网络的深度学习方法表现出比传统机器学习方法更好的性能,但深度学习模型训练需要更长的时间。对比几种深度学习方法,从综合特征抽取能力和计算效率方面来看,ERNIE>Bert-CNN>Bert>Bert-RNN。以Bert 为基准模型,多种深度学习模型具有不同的适用性:Bert 擅长获取全局特征,短文本分类效果良好,但长文本会带来繁重的计算复杂度,导致速度急剧变慢。Bert-CNN 擅长获取局部特征,在短文本分类中效果更好。Bert-RNN 适用于处理序列数据,能够处理变长输入,挖掘长期依赖,但受限于并行计算能力。相比于Bert,ERNIE 在掩码机制和语料库上进行了改进,效果优于Bert 及其改进模型。研究共获得124196 个使用方法句子和 8935 个引用方法句子。使用方法句和引用方法句的比例呈现出先上升后下降的曲折变化,但在过去20 年中,总体呈上升趋势。(3)基于文献全文的洪涝灾害研究方法实体提取为获得更精准的洪涝灾害研究知识,提出了句子-短语的精细提取策略进行洪涝灾害研究方法实体提取研究。基于研究方法句的抽取结果,设计方法实体标注规则,采用多种组合的深度学习模型,开展洪涝灾害研究方法实体抽取研究。采用BiLSTM-CRF 模型从论文使用方法句中抽取得到2181 种研究方法和291 个软件工具,从论文引用方法句中得到259 种研究方法和70 个软件工具。将研究方法归纳为洪涝灾害领域方法、统计学方法和机器学习方法三大类,将软件工具分为领域类、统计类和编程语言类。洪涝灾害领域方法中HEC-RAS 和HEC-HMS 的使用频次和被引频次均相对较高。机器学习方法中ANN 和SVM 是经典且常用的方法。洪涝灾害相关研究所用的研究数据主要以遥感影像为主,SAR 使用频次最多。ArcGIS 是使用频次最高的软件工具。(4)基于多源数据的洪涝灾害知识图谱构建为保证知识存储的条理性和知识推理的有效性,构建洪涝灾害数据组织模型。基于以上抽取得到的洪涝灾害研究知识,整合防灾减灾知识服务系统平台中的洪涝灾害数据集、专家库、机构库、地图库、视频库等数据,构建基于多源数据的洪涝灾害知识图谱,包含49878 个节点和79542 条边。围绕洪涝灾害知识图谱查询与可视化、不同类型洪涝灾害的研究方法分析、暴雨洪水管理模型适用分析等开展洪涝灾害知识图谱场景应用。
语种中文
页码143
源URL[http://ir.igsnrr.ac.cn/handle/311030/199871]  
专题地理科学与资源研究所_研究生部
推荐引用方式
GB/T 7714
张敏. 基于多源数据的洪涝灾害实体提取与知识图谱构建[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2023.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。