中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
低资源场景下的事件抽取方法研究

文献类型:学位论文

作者马文杰
答辩日期2022-05-16
文献子类硕士
授予单位中科院自动化研究所
授予地点中科院自动化研究所
导师陶建华
关键词事件抽取
学位名称工学硕士
学位专业模式识别与智能系统
英文摘要

随着互联网的普及和信息技术的高速发展,互联网上的信息规模呈指数级增长。信息抽取技术关注从海量的数据中挖掘有价值的信息。事件抽取作为信息抽取的重要组成部分,旨在从海量的非结构化文本数据中抽取关注的事件信息,在金融、舆论监控等方面发挥着重要作用。近年来,事件抽取研究获得了长足的发展,但是大多数事件抽取研究都基于深度学习方法,其依赖于大规模的标注数据训练模型。然而,现有事件数据集规模较小且分布不均匀,这些问题很大程度上限制了事件抽取方法的应用。

针对事件抽取存在的问题,本文主要从重构事件抽取任务范式和事件数据增广两个方面来缓解低资源场景下的事件抽取问题。本文的工作主要包含以下两个方面:

一.针对真实应用场景中低频次事件的抽取问题,提出了一种基于阅读理解问答范式的事件抽取方法,该方法的核心是将事件抽取任务重构为阅读理解问答范式。首先,所提方法将事件抽取任务建模为阅读理解问答形式,通过构造包含事件先验知识的阅读理解问题,从待抽取文本中检索问题答案,最后将问题的答案进行组合作为事件抽取的结果。另外,通过设计实体跨度预测网络有效地增强了模型的多论元实体抽取能力,并且通过构建包含先验知识的阅读理解问题提高了模型的表达能力。实验证明,该方法显著提升了中文事件抽取的性能,并且可以有效应对低频次事件抽取问题。

二.针对事件抽取任务中标注数据稀缺问题,提出基于样本转换和自训练的事件数据增广方法。基于样本转换的事件数据增广方法通过在已有数据集上进行随机实体替换、随机交换位置、随机同义词替换操作,实现对ACE2005中文数据集的扩充,增加了数据的多样性。基于自训练的事件数据增广方法利用少量的标注数据通过自训练方法充分利用未标注数据的事件信息,增强了模型的泛化性能。实验表明,本文提出的两种事件数据增广方法在提升模型性能上效果明显,进一步证明了两种数据增广方法的有效性。另外,基于自训练的事件数据增广方法还可以借助少量的标注语料对未标注数据进行标注,大大提升了数据标注的效率。

语种中文
页码62
源URL[http://ir.ia.ac.cn/handle/173211/48697]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
马文杰. 低资源场景下的事件抽取方法研究[D]. 中科院自动化研究所. 中科院自动化研究所. 2022.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。