中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向非结构化文本的事件抽取关键技术研究

文献类型:学位论文

作者陈玉博
答辩日期2017-05-24
授予单位中国科学院大学
授予地点北京
导师赵军
关键词信息抽取 事件抽取 非结构化文本 卷积神经网络 语料自动生成
英文摘要
随着互联网技术的发展和普及,网络已经成为人们日常生活中必不可少的
部分。互联网上存在大量的非结构化电子文本,面对日益增长的网页数据,如
何帮助人们理解这些数据,快速地从海量的非结构化文本中发现知识,以及如
何将这些文本知识表示成计算机易于“理解” 的形式,从而减轻人类的学习成
本,显得越来越重要。信息抽取技术的提出正是为了解决这个问题。
事件抽取是信息抽取技术的重要环节,也是信息抽取领域的难点问题。它
旨在从非结构化文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现
出来,如什么人,什么时间,在什么地方,做了什么事。事件抽取不仅有助于
互联网信息的管理与服务,而且对于文本内容理解具有重要支撑作用,能够将
文本分析从语言层面提升到内容层面,对大规模知识库构建、自动问答、语义
搜索、舆情监控等具有潜在的应用前景。因此,事件抽取技术得到了学术界和
工业界的广泛关注,成为越来越热门的研究课题。近年来,基于机器学习的事
件抽取研究已经取得了一定的进展,其中基于监督学习的方法占据了主导位
置并取得一系列成果,然而其性能一直比较低。现有方法主要面临着三个挑
战:(1)特征方面:特征提取过程中过分依赖现有的自然语言处理工具,存在
误差累积问题;(2)语料方面:训练语料由人工标注耗时、费力、成本昂贵,
而且语料规模较小、类别较少;(3)抽取过程方面:独立预测各个候选事件元
素,忽略事件内部各个元素之间的关系和影响。本文针对上述挑战和问题,面
向非结构化文本的事件抽取关键技术展开研究,研究成果主要包括:
1、针对特征提取过程中过分依赖自然语言处理工具造成的误差累积问题,
提出基于动态多池化卷积神经网络的事件抽取方法。该方法不依赖于现有的自
然语言处理工具,利用动态多池化卷积神经网络从原始文本中自动学习表示事
件信息的特征,特别地考虑了一句话中有多个事件的情况。具体地,首先将输
入文本表示为词向量形式,然后抽取候选事件触发词和事件元素对应的向量作
为词汇级特征,同时利用动态多池化卷积神经网络进行语义组合得到句子级特
征,最后将这两种特征拼接起来构成最终的特征向量。实验结果表明,与基线
系统相比,该方法在事件抽取任务上性能有显著提升,改善了传统特征抽取存
在的误差累积问题,同时使用动态多池化技术后系统性能进一步提升。
2、针对人工标注语料耗时、费力、成本高昂的问题,提出基于世界知识
和语言学知识的事件语料大规模自动生成方法。该方法不依赖人工标注,利用
世界知识和语言学知识自动生成大规模事件标注语料。首先利用世界知识发现
每个事件类型的核心元素和触发词,然后利用语言学知识扩展和过滤事件触发
词,最后提出面向事件抽取的远距离监督回标方法,利用事件触发词和核心元
素自动地标注事件语料。评价结果显示,自动生成的语料正确率能达到85%,
而且能有效扩展人工标注的语料,进而提升事件抽取模型的性能。除此之外,
本文还针对自动生成数据中的噪声问题,将多示例学习算法融入到基于动态多
池化卷积神经网络的事件抽取方法中,从而减少数据回标噪声对实验结果的影
响。实验结果表明,在held-out 评价和人工评价两种指标上,该方法取得的结
果均好于基线系统,有效缓解了回标噪声的问题。
3、针对传统方法抽取事件过程中忽略事件内部结构和候选元素之间的内
在影响和语义关系的问题,提出基于双向长短期记忆张量神经网络的事件抽取
方法。该方法能考虑一个事件中各个候选元素之间的内在影响和语义关系,进
而联合预测一个事件中的所有元素。具体地,首先利用双向长短期记忆神经网
络完成基于上下文的词语语义表示和句子级语义表示,然后,利用张量层来捕
获各个候选事件元素之间的内在影响和语义关系,进而完成所有事件元素的联
合预测。实验结果表明,该方法能较好地捕获一个事件中各个元素之间的内在
影响和语义关系,相对于基线系统,取得了更好的效果。

源URL[http://ir.ia.ac.cn/handle/173211/14647]  
专题毕业生_博士学位论文
作者单位中国科学院自动化研究所
推荐引用方式
GB/T 7714
陈玉博. 面向非结构化文本的事件抽取关键技术研究[D]. 北京. 中国科学院大学. 2017.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。