面向中文知识抽取的语料库构建技术研究
文献类型:学位论文
作者 | 郝悦星 |
答辩日期 | 2017-05-27 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 徐波 |
关键词 | 知识抽取 远监督 端对端记忆网络 Ssm框架 |
英文摘要 |
近年来,知识抽取任务逐渐成为了自然语言处理领域的一个热点问题。现 有的知识抽取算法主要是基于统计机器学习方法,其特点是严重依赖于训练语 料。由于手动标注知识抽取数据的成本太高,目前暂时没有公开的大数量级的 中文知识抽取数据集,这导致面向中文的知识抽取算法研究缺乏合理的验证数 据集,阻碍相关领域的发展。 针对上述问题,本文面向关系抽取、三元组抽取等中文知识抽取任务,通 过人-机结合的方式,围绕语料获取、过滤和人工筛选等步骤展开研究,实现 构建高质量、大规模的中文知识抽取语料库的目标。主要内容包括以下三点: (1) 提出了一种基于远监督的语料库构建方法。本文基于回标的思想利用三元 组匹配句子,如果句子中包含三元组中的实体对,则认为该句子能抽取出 对应三元组,并标注为句子-三元组对存储在语料库中。为了自动获取大量 的句子-三元组对,本文首先设计爬虫爬取在线百科知识库和部分娱乐性 网站的页面信息,解析页面中的半结构化信息和非结构化文本后分别构成 了三元组库和生语料库。然后,本文设计了基于SVM的不完整句子过滤模 型,提取了信息增益、TF-IDF值、词性和句法规则等特征,筛选出句法结 构完整的句子。最后,本文基于远监督回标的思想利用三元组库回标生语 料库,初步构建了句子-三元组语料库。 (2) 提出了一种基于端对端神经网络的语料库过滤方法。基于远监督的回标方 法虽然克服了有监督方法需要人工标注数据的不足,但其假设并不完善, 实体对在句子中出现的语义关系未必与对应三元组中的关系匹配。仅通过 上述回标方式构建的句子-三元组对语料库引入了大量噪声样本,这会严重 影响抽取算法的性能。针对这个问题,本文将该匹配判定问题转化为一个 二分类问题,提出了一种基于端对端记忆网络的分类模型,将句子的有效 信息存储于记忆组件中,三元组从记忆组件中挑选出与匹配判定相关的记 忆后进行分类,从而筛选出正确的句子-三元组对。实验结果表明,与传统 机器学习方法相比,该模型的分类效果更好,同时实验中针对不同关系的 句子- 三元组对特点进行了分析。 (3) 搭建了一个面向中文知识抽取语料库的人工筛选平台。语料库的质量直接 影响后续抽取模型的性能,而通过算法自动生成的句子-三元组对语料库无 法达到高准确率的要求。因此本文基于B/S和SSM框架搭建了一个面向中 文知识抽取语料库的人工筛选平台,方便对回标、过滤后的句子-三元组对 进行最后的人工确认,以保证句子-三元组对语料库的高质量。该平台主要 包括了确认、修改和删除三种功能,用户可利用这三种功能对句子-三元组 对进行筛选和修改。此外,该平台支持多人同时在线进行句子-三元组对的 匹配确认工作,提高了人工筛选的工作效率。 |
源URL | [http://ir.ia.ac.cn/handle/173211/14847] |
专题 | 毕业生_硕士学位论文 |
作者单位 | 中国科学院自动化研究所 |
推荐引用方式 GB/T 7714 | 郝悦星. 面向中文知识抽取的语料库构建技术研究[D]. 北京. 中国科学院研究生院. 2017. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。