中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于文本的灾害时空事件频繁模式挖掘

文献类型:学位论文

作者韩嫒嫒
答辩日期2024-11
文献子类学术型学位
授予单位中国科学院大学
授予地点中国科学院地理科学与资源研究所
导师袁文
关键词灾害事件 文本分类 XLNet模型 时空关联 频繁子图挖掘
学位名称硕士
学位专业地图学与地理信息系统
英文摘要人类的生存始终伴随着与各种灾害的抗争。提高对灾害发生规律的掌握,对于人类防灾减损至关重要。本文基于大量关于自然灾害、疫灾与战争时空事件的文本记录,开展了频繁模式挖掘研究,尝试发现不同灾害在时空上的关联规律。本文主要内容概括如下: (1)从文本中提取灾害类别是基于文本进行灾害关联挖掘的基础,因此,提取文本灾害类别的准确度越高,研究的数据基础越好。由于作为数据来源之一的互联网文本数据中包含大量非灾害事件文本,本文研究了可以过滤非灾害事件文本的自然灾害文本分类模型。首先构建文本自然灾害事件分类本体和知识体系,其次使用XLNet模型和多标签分类方法,训练得到可识别非灾害事件与23类灾害事件的文本分类模型,在验证集中的互联网数据上宏平均F1分数达91%。 (2)本文将上述模型分类得到的自然灾害时空事件数据与专著中的疫灾和战争时空事件数据相结合,开展灾害时空事件的频繁模式挖掘。首先构建了灾害时空事件的单标签有向图。构建过程中,为减少图数据量以满足算力限制,从灾害类别因果约束和时空范围阈值两方面来减少图中连边的数量。最终构建了四个不同时间分辨率数据上的灾害时空事件图,各自包含2~14万个节点。 (3)对灾害时空事件图运用频繁子图挖掘算法,本文得到了一系列同时考虑时间间隔与空间距离的灾害频繁模式,主要发现有:①历史上洪涝与干旱事件的频次相近,但干旱与疫灾或战争的时空关联性更强,推测干旱相比于洪涝对中国社会历史的影响更大;②时空关联较强的模式主要有:台风/暴雨→1各种次生灾害、高温→干旱、连阴雨→洪涝、寒潮→各种次生灾害;③高温→干旱最常见的时间间隔是5~7天,高温→疫灾最常见的时间间隔是15~29天;④大风→沙尘暴大多间隔0~1天,相距100公里内;大风→干旱最频繁的时空间隔是相差2~4天、相距约50~100公里;⑤暴雨→崩塌/滑坡/泥石流/洪涝的时空距离分布十分相似,四种模式最常见的时空间隔都是间隔2~4天、距离50或100公里内。 本文提出的分类方法实现了互联网开放域文本中自然灾害事件文本的自动筛选和分类,为自然灾害监测和评估提供了新的技术工具。本文得到的灾害频繁子图统计结果可以为了解灾害的关联规律提供较为详细的数据支持,可作为灾害防治的参考,也可以为基于文本的灾害因果分析或灾害预测研究奠定基础。
学科主题地图学与地理信息系统
语种中文
页码85
源URL[http://ir.igsnrr.ac.cn/handle/311030/215731]  
专题地理科学与资源研究所_研究生部
推荐引用方式
GB/T 7714
韩嫒嫒. 基于文本的灾害时空事件频繁模式挖掘[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2024.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。