中国科学院机构知识库网格系统: 面向中文知识抽取的语料库构建技术研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

面向中文知识抽取的语料库构建技术研究

文献类型：学位论文


作者	郝悦星
答辩日期	2017-05-27
授予单位	中国科学院研究生院
授予地点	北京
导师	徐波
关键词	知识抽取远监督端对端记忆网络 Ssm框架
英文摘要	近年来，知识抽取任务逐渐成为了自然语言处理领域的一个热点问题。现有的知识抽取算法主要是基于统计机器学习方法，其特点是严重依赖于训练语料。由于手动标注知识抽取数据的成本太高，目前暂时没有公开的大数量级的中文知识抽取数据集，这导致面向中文的知识抽取算法研究缺乏合理的验证数据集，阻碍相关领域的发展。针对上述问题，本文面向关系抽取、三元组抽取等中文知识抽取任务，通过人-机结合的方式，围绕语料获取、过滤和人工筛选等步骤展开研究，实现构建高质量、大规模的中文知识抽取语料库的目标。主要内容包括以下三点： (1) 提出了一种基于远监督的语料库构建方法。本文基于回标的思想利用三元组匹配句子，如果句子中包含三元组中的实体对，则认为该句子能抽取出对应三元组，并标注为句子-三元组对存储在语料库中。为了自动获取大量的句子-三元组对，本文首先设计爬虫爬取在线百科知识库和部分娱乐性网站的页面信息，解析页面中的半结构化信息和非结构化文本后分别构成了三元组库和生语料库。然后，本文设计了基于SVM的不完整句子过滤模型，提取了信息增益、TF-IDF值、词性和句法规则等特征，筛选出句法结构完整的句子。最后，本文基于远监督回标的思想利用三元组库回标生语料库，初步构建了句子-三元组语料库。 (2) 提出了一种基于端对端神经网络的语料库过滤方法。基于远监督的回标方法虽然克服了有监督方法需要人工标注数据的不足，但其假设并不完善，实体对在句子中出现的语义关系未必与对应三元组中的关系匹配。仅通过上述回标方式构建的句子-三元组对语料库引入了大量噪声样本，这会严重影响抽取算法的性能。针对这个问题，本文将该匹配判定问题转化为一个二分类问题，提出了一种基于端对端记忆网络的分类模型，将句子的有效信息存储于记忆组件中，三元组从记忆组件中挑选出与匹配判定相关的记忆后进行分类，从而筛选出正确的句子-三元组对。实验结果表明，与传统机器学习方法相比，该模型的分类效果更好，同时实验中针对不同关系的句子- 三元组对特点进行了分析。 (3) 搭建了一个面向中文知识抽取语料库的人工筛选平台。语料库的质量直接影响后续抽取模型的性能，而通过算法自动生成的句子-三元组对语料库无法达到高准确率的要求。因此本文基于B/S和SSM框架搭建了一个面向中文知识抽取语料库的人工筛选平台，方便对回标、过滤后的句子-三元组对进行最后的人工确认，以保证句子-三元组对语料库的高质量。该平台主要包括了确认、修改和删除三种功能，用户可利用这三种功能对句子-三元组对进行筛选和修改。此外，该平台支持多人同时在线进行句子-三元组对的匹配确认工作，提高了人工筛选的工作效率。
源URL	[http://ir.ia.ac.cn/handle/173211/14847]
专题	毕业生_硕士学位论文
作者单位	中国科学院自动化研究所
推荐引用方式 GB/T 7714	郝悦星. 面向中文知识抽取的语料库构建技术研究[D]. 北京. 中国科学院研究生院. 2017.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。