中国科学院机构知识库网格系统: 长时序文本灾害时空事件挖掘方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

长时序文本灾害时空事件挖掘方法研究

文献类型：学位论文


作者	胡段牧
答辩日期	2022-06
文献子类	学术型学位
授予单位	中国科学院大学
授予地点	中国科学院地理科学与资源研究所
导师	袁文
关键词	灾害时空事件封闭域开放域信息抽取 BERT模型时空链
学位名称	硕士
学位专业	地图学与地理信息系统
英文摘要	互联网中蕴含了海量的描述自然和社会活动的时空事件，与过去的信息获取手段相比，具有来源广、时效性更高、以及存在多角度、多粒度的事件描述信息的特点。自然语言处理的发展为快速获取海量文本信息中的时空事件提供了新的解决方案。但目前标注语料训练库多采用人工标注、人机结合等方式构建，存在标注过程费时费力和缺乏领域专家知识导致标注错误等问题。因此，本文提出了以下问题：（1）如何在标注训练语料库构建时引入领域专家知识？（2）如何将封闭域知识应用于开放域（泛在网络）信息抽取中？（3）如何建立事件之间的关联以用于更深层次的分析？本文以灾害领域为研究对象，使用自然语言处理技术开展长时序灾害时空事件自动抽取方法研究。主要研究内容如下：（1）提出了基于专业文献的大规模灾害标注语料训练库的构建方法。首先为解决不同文献资料存在的歧义和不兼容等问题，构建了面向文本事件的统一的灾害知识体系。然后构建了基于章节结构的粗标注方法，分别针对长文本（现代文）和短文本（文言文）研发了基于 Labeled LDA 模型及 TF-IDF 和 N-gram 模型的精细标注语料筛选方法，通过该方法实现了大规模、较高精度的标注语料训练库的快速构建；（2）构建了面向长短文一体处理的融合上下文语义特征和多粒度的局部语义特征的深度学习模型，实现了基于封闭域的灾害时空事件自动抽取；（3）针对开放域，基于特征词嵌入（Keyword Embeddings）、Attention 机制等多种模型探索了灾害时空事件的自动抽取方法，并基于时空的事件融合方法实现多源数据融合，基本实现了泛在网络数据自动获取、筛选和分类；（4）为了构建事件之间的关联关系，提出了时空链模型，实现了不同粒度、不同来源的若干小事件合并，形成大事件，并在此基础上研究灾害的频繁发生模式。基于上述工作，本文得出以下结论：（1）基于专业文献的灾害标注语料训练库构建方法不仅有效的利用了领域知识对语料进行粗分类，避免了缺乏领域知识导致的标注错误问题，而且针对长文本和短文本分别构建基于 Labeled LDA 模型、TF-IDF 和 N-gram 模型的语料筛选方法，在无需人工标注情况下可快速实现大规模、较高精度的标注语料训练库的构建；（2）基于封闭域的 BERT-CNN 模型融合上下文语义特征和多粒度的局部语义特征，实现了灾害时空事件的自动分类。其宏 F1 值达 87.56%，比BERT 基准模型高 0.77%，取得了更优的分类效果；（3）本文提出的基于特征词嵌入的四种改进方法分类精度都优于基准模型。在不同情境下的对比实验中，本文发现增加 dropout 和将 BERT 模型的所有层拼接进行表征的方法会降低模型精度，选用 CNN 分类器和合理的 learning rate 溶蚀可以提高模型精度，batchsize 对模型的精度影响不大；（4）本文构建时空链模型量化了事件之间的关联关系，并基于时空链和灾害时空事件统计特征分析灾害的频繁模式。结果表明，东南沿海地区以台风时空链为主；南方地区以暴雨和洪涝时空链为主，在四川、贵州等地区易引发泥石流、滑坡等地质灾害；北方地区以冰雹和雪灾等低温时空链为主。
学科主题	地图学与地理信息系统
语种	中文
页码	83
源URL	[http://ir.igsnrr.ac.cn/handle/311030/184602]
专题	地理科学与资源研究所_研究生部
推荐引用方式 GB/T 7714	胡段牧. 长时序文本灾害时空事件挖掘方法研究[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2022.

入库方式： OAI收割

来源：地理科学与资源研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。