中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向非结构化文本的事件关系抽取关键技术研究

文献类型:学位论文

作者左新宇
答辩日期2021-05-27
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师赵军
关键词自然语言处理 信息抽取 事件关系抽取 事件共指关系消解 事件因果关系识别
学位名称工学博士
学位专业计算机应用技术
英文摘要

信息抽取技术旨在从非结构化的自然语言文本中抽取出结构化的事实描述。随着信息技术的高速发展,互联网上的信息规模呈爆炸式增长,信息抽取技术有助于从海量非结构化文本中挖掘有用信息。从认知角度出发,世界上发生的所有事情都可以被定义为事件,认知学家认为人们是通过认识事件以及事件之间的联系来观察和了解世界的。因此,事件及其关系的抽取和理解是捕获文档深层语义的关键一环。但是,相较事件抽取任务,同样作为事件知识图谱构建重要环节的事件关系抽取尚未得到太多关注。因此,本文研究面向非结构化文本的事件关系抽取任务。

本文在分析事件关系抽取在非结构化文本中的研究现状基础上,聚焦于事件共指关系和事件因果关系两类关系,围绕事件关系抽取过程中普遍存在的显式误差累积问题、训练数据缺失问题和关系语义表示不充分问题展开研究。本文的主要研究内容和创新点如下:

1. 针对显式误差累积问题,本文提出一种基于联合隐式表达的事件共指关系消解方法。目前事件关系抽取方法中存在两个方面的显式误差累积问题: 1) 事件元素抽取的误差累积问题,传统方法依赖于显式抽取的事件论元信息推断事件关系,无法很好的处理抽取和利用事件论元信息时带来的误差; 2) 流水线式框架的误差传递问题,目前大多方法采用流水线框架,先从文本中抽取事件,再识别事件间的关系,依赖于显式抽取的事件信息,事件抽取阶段的误差会影响事件关系的推断。对于上下文特征依赖程度较大的事件共指关系消解来说,上述问题的影响尤为严重。

为此,首先,针对事件元素抽取的误差累积问题,本文提出一个基于事件论元信息隐式融合的多损失事件共指关系消解模型,该模型利用隐式融合的事件论元信息抽取事件共指关系。其次,针对流水线式框架的误差传递问题,本文提出一个基于最小风险训练的事件检测和事件共指关系消解联合学习模型,该模型可以在不依赖显式特征的基础上,联合抽取事件和事件共指关系,并基于最小风险训练机制,用事件共指关系评价指标约束模型训练,有效应对评价指标和训练目标不一致问题。在国际公开数据集上的实验结果验证了上述模型的有效性。

2. 针对训练数据缺失问题,提出一种知识融合的事件因果关系数据增强方法。无论是认知学还是语言学,目前都还没有统一的事件关系定义框架,导致事件关系抽取的数据集规模普遍较小,为模型的充分训练提出了挑战,该问题在错综复杂的事件因果关系识别中尤其严重。本文从数据自动标注和数据自动生成这两个常用的数据增强方法出发,解决事件因果关系识别的训练数据缺失问题。

为此,首先,本文提出一个知识增强的事件因果关系数据自动标注框架,该框架利用多个外部知识库,引入大量的高概率因果相关事件,基于距离监督的方式从外部无标注文本中自动标注含噪的训练数据,并基于常识推理资源库过滤噪声数据,最终使用自训练机制利用自动标注的训练数据提升事件因果关系识别的性能。此外,自动标注的训练数据的质量相对不高,因此,本文还提出一个知识引导的事件因果关系数据自动生成框架,该框架利用对偶学习机制,基于引入的因果相关事件,将事件因果关系识别器和数据生成器对偶约束,生成高质量的训练数据,提升事件因果关系识别的性能。具体来说,生成器可以从事件因果关系识别过程中学习到如何生成高质量的数据,识别器也可以通过数据生成过程学习到哪些表述蕴含了因果语义。在国际公开的数据集上的实验结果表明,新生成的训练数据可以有效提升事件因果关系识别的性能。

3. 针对关系语义表示不充分问题,提出一种基于表示强化的事件因果关系识别方法。识别事件关系需要对文本表达的关系语义有深入的理解,其中一个最重要的是事件因果关系。本文从事件上下文因果解释语义和事件因果关系语义两个角度强化事件因果关系语义理解。

首先,本文提出一个基于层级显著感知的因果解释检测模型,该模型利用基于句法依存图的词语级别显著网络捕获每个文本单元的关键词信息,并利用基于注意力机制的话语级别显著网络增强表达因果解释语义的文本单元的影响力。该模型可以深入理解文本片段中的因果语义,准确地检测文本片段中蕴含因果解释的文本单元,进一步帮助识别事件间的因果关系。此外,上文提到事件因果关系识别的数据集规模小,数据集中上下文相关的因果模式覆盖度低,使得模型不能很深入地理解事件在文本中的因果语义。为此,本文提出一个基于自监督表示学习的事件因果关系识别模型,该模型利用外部表达因果语义的文本,基于自监督表示学习机制学习上下文相关的因果表达模式,并通过对比迁移策略,增强因果语义的理解,提升事件因果关系识别的效果。国际公开的数据集上的实验结果表明,上述方法可以有效增强事件因果关系表示,提升事件因果关系识别的性能。

本文的工作、方法和结论对于进一步探索和建立更加高效的事件关系抽取系统具有重要的指导意义,在一定程度上填补目前国内外相关研究缺少的状况。

学科主题计算机科学技术 ; 人工智能 ; 自然语言处理
语种中文
页码164
源URL[http://ir.ia.ac.cn/handle/173211/44858]  
专题模式识别国家重点实验室_自然语言处理
推荐引用方式
GB/T 7714
左新宇. 面向非结构化文本的事件关系抽取关键技术研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。